#GUI Grounding

17개의 포스트

[논문리뷰] One Forward Beats Two: InnerZoom for Accurate and Efficient GUI Grounding

본 논문은 MLLM 기반의 GUI Grounding에서 나타나는 비효율성과 정확도 저하 문제를 해결하고자 합니다. 기존의 ZoomIn 계열 방식은 타겟 영역을 외부에서 크롭하여 두 번 추론(Two-pass)함으로써 정확도를 높였으나, 이는 Latency를 증가시키고 계산 비용을 높이는 원인이 됩니다.

#Review #GUI Grounding #MLLM #Cross-Layer Evidence #Coordinate Generation #InnerZoom #Efficient Inference #Region-to-Point Gap

2026년 6월 29일

[논문리뷰] Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding

본 논문은 OPSD 학습 과정에서 발생하는 교사 모델 신호의 품질 저하 문제를 해결하기 위해 Quality-Aware Self-Distillation을 제안한다.

#Review #GUI Grounding #On-Policy Self-Distillation #Teacher-Signal Reliability #Vision-Language Models #Correctness-Aware Gating #Probability Scaling

2026년 6월 17일

[논문리뷰] VISTA: View-Consistent Self-Verified Training for GUI Grounding

본 논문은 기존의 GRPO를 활용한 GUI Grounding 학습에서 발생하는 보상 퇴화(reward degeneracy) 문제를 해결하는 데 집중합니다.

#Review #GUI Grounding #GRPO #Self-Verified Training #View-Consistent #Reinforcement Learning #VLM

2026년 6월 14일

[논문리뷰] Agent Skills Should Go Beyond Text: The Case for Visual Skills

본 논문은 현재 에이전트 스킬 학습 패러다임이 텍스트 중심적(text-only)으로 구성되어 있어 시각적 과업 수행 시 발생하는 '텍스트 병목 현상(Textual Bottleneck)'을 해결하고자 합니다 .

#Review #Multimodal Agent #Visual Skill #Spatial Prior #GUI Grounding #Task Decomposition #Skill Reusability #Textual Degradation

2026년 6월 1일

[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens

기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 .

#Review #Vision-Language Models #Grounding Tokens #Pointing #GUI Grounding #Video Grounding #Sample Efficiency

2026년 3월 30일

[논문리뷰] UI-Venus-1.5 Technical Report

본 논문은 기존 GUI 에이전트의 일반성 및 일관된 고성능 달성 문제를 해결하기 위해, 강력한 실제 애플리케이션을 위한 통합된 엔드투엔드 GUI 에이전트인 UI-Venus-1.5 를 제안합니다.

#Review #GUI Agent #MLLM #Reinforcement Learning #Model Merging #GUI Grounding #Task Navigation #Online-RL #Offline-RL

2026년 2월 10일

[논문리뷰] POINTS-GUI-G: GUI-Grounding Journey

본 논문은 최소한의 GUI grounding 능력을 가진 POINTS-1.5 와 같은 기반 모델에서 출발하여, GUI grounding을 위한 완전한 기술 파이프라인을 구축하고 자동화하는 것을 목표로 합니다.

#Review #GUI Grounding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering #UI Automation #Perception-intensive AI

2026년 2월 8일

[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.

#Review #GUI Grounding #Multi-Platform #Benchmark #MLLM #Hierarchical Evaluation #Human-in-the-Loop Annotation #GUI Agents #Multilingual Dataset

2025년 12월 18일

[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents

본 논문은 데스크톱 컴퓨터 사용 에이전트(CUAs) 연구의 세 가지 주요 격차(실세계 CUA 태스크 부족, 자동화된 데이터 수집 및 주석 파이프라인 부재, 통합 벤치마크 부족)를 해결하는 것을 목표로 합니다.

#Review #Computer-Using Agents #GUI Grounding #Screen Parsing #Action Prediction #Desktop Automation #Dataset #Benchmark #Multimodal Learning #LLM-augmented Data

2025년 11월 9일

[논문리뷰] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

본 연구는 컴퓨터 사용 에이전트의 핵심 기능인 GUI Grounding에서 발생하는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Multimodal Attention #MLLMs #Coordinate-Free #Visual Grounding #Attention Weighting #Anchor Token

2025년 11월 9일

[논문리뷰] HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

본 논문은 자율 GUI(Graphical User Interface) 에이전트 가 부정확하거나 과도한 확신을 가진 예측을 생성하여 태스크 실패로 이어지는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Uncertainty Calibration #Reinforcement Learning #Confidence Estimation #Brier Score #GUI Agents #Visual-Language Models

2025년 11월 9일

[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.

#Review #Computer Use Agents #Vision-Language Models #Cross-Platform Data #GUI Automation #Data Scaling #Open-Source #Task Completion #GUI Grounding

2025년 9월 19일

[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Test-Time Scaling #Reinforcement Learning #Region Consistency #Spatial Voting #Self-Supervised Learning #Vision-Language Models

2025년 8월 13일

[논문리뷰] InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

본 논문은 MLLM(Multimodal Large Language Model) 기반 GUI 에이전트 의 핵심 과제인 자연어 지시문 GUI Grounding 에서 의미론적 정렬(Semantic Alignment) 의 비효율적인 탐색 문제 해결을 목표로 합니다.

#Review #GUI Grounding #MLLMs #Reinforcement Learning #Policy Optimization #Exploration Strategy #Semantic Alignment #Adaptive Exploration Reward #Human-Computer Interaction

2025년 8월 11일

[논문리뷰] UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

본 논문은 GUI 그라운딩(grounding) 태스크에서 자연어 명령어의 다양성과 품질 이 모델 성능에 미치는 영향을 간과했던 기존 연구의 한계를 극복하고자 합니다. 명령어에 존재하는 23.3%의 오류율 을 개선하고, 추론 시 명령어 다양성 을 활용하여 최대 76%의 상대적 성능 향상 을 목표로 합니다.

#Review #GUI Grounding #Natural Language Instructions #Multi-Perspective Reasoning #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Policy Collapse Mitigation #GUI Agents

2025년 10월 27일

[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.

#Review #GUI Grounding #Vision-Language Models #Positional Embedding #UI Automation #Coordinate Prediction #Resolution Generalization #Transformer Architecture

2025년 10월 6일

[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

본 논문은 낮은 지연 시간, 강력한 프라이버시 보장 및 제한된 연결성 환경에서 견고한 동작을 요구하는 온디바이스 GUI 에이전트 개발의 과제를 해결하고자 합니다.

#Review #GUI Agents #On-Device AI #Multimodal LLM #GUI Grounding #GUI Navigation #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data

2025년 10월 1일