[논문리뷰] Agent Skills Should Go Beyond Text: The Case for Visual Skills본 논문은 현재 에이전트 스킬 학습 패러다임이 텍스트 중심적(text-only)으로 구성되어 있어 시각적 과업 수행 시 발생하는 '텍스트 병목 현상(Textual Bottleneck)'을 해결하고자 합니다 .#Review#Multimodal Agent#Visual Skill#Spatial Prior#GUI Grounding#Task Decomposition#Skill Reusability#Textual Degradation2026년 6월 1일댓글 수 로딩 중
[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 .#Review#Vision-Language Models#Grounding Tokens#Pointing#GUI Grounding#Video Grounding#Sample Efficiency2026년 3월 30일댓글 수 로딩 중
[논문리뷰] UI-Venus-1.5 Technical Report본 논문은 기존 GUI 에이전트의 일반성 및 일관된 고성능 달성 문제를 해결하기 위해, 강력한 실제 애플리케이션을 위한 통합된 엔드투엔드 GUI 에이전트인 UI-Venus-1.5 를 제안합니다.#Review#GUI Agent#MLLM#Reinforcement Learning#Model Merging#GUI Grounding#Task Navigation#Online-RL#Offline-RL2026년 2월 10일댓글 수 로딩 중
[논문리뷰] POINTS-GUI-G: GUI-Grounding Journey본 논문은 최소한의 GUI grounding 능력을 가진 POINTS-1.5 와 같은 기반 모델에서 출발하여, GUI grounding을 위한 완전한 기술 파이프라인을 구축하고 자동화하는 것을 목표로 합니다.#Review#GUI Grounding#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering#UI Automation#Perception-intensive AI2026년 2월 8일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중
[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents본 논문은 데스크톱 컴퓨터 사용 에이전트(CUAs) 연구의 세 가지 주요 격차(실세계 CUA 태스크 부족, 자동화된 데이터 수집 및 주석 파이프라인 부재, 통합 벤치마크 부족)를 해결하는 것을 목표로 합니다.#Review#Computer-Using Agents#GUI Grounding#Screen Parsing#Action Prediction#Desktop Automation#Dataset#Benchmark#Multimodal Learning#LLM-augmented Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding본 연구는 컴퓨터 사용 에이전트의 핵심 기능인 GUI Grounding에서 발생하는 문제를 해결하고자 합니다.#Review#GUI Grounding#Multimodal Attention#MLLMs#Coordinate-Free#Visual Grounding#Attention Weighting#Anchor Token2025년 11월 9일댓글 수 로딩 중
[논문리뷰] HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration본 논문은 자율 GUI(Graphical User Interface) 에이전트 가 부정확하거나 과도한 확신을 가진 예측을 생성하여 태스크 실패로 이어지는 문제를 해결하고자 합니다.#Review#GUI Grounding#Uncertainty Calibration#Reinforcement Learning#Confidence Estimation#Brier Score#GUI Agents#Visual-Language Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.#Review#Computer Use Agents#Vision-Language Models#Cross-Platform Data#GUI Automation#Data Scaling#Open-Source#Task Completion#GUI Grounding2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.#Review#GUI Grounding#Test-Time Scaling#Reinforcement Learning#Region Consistency#Spatial Voting#Self-Supervised Learning#Vision-Language Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization본 논문은 MLLM(Multimodal Large Language Model) 기반 GUI 에이전트 의 핵심 과제인 자연어 지시문 GUI Grounding 에서 의미론적 정렬(Semantic Alignment) 의 비효율적인 탐색 문제 해결을 목표로 합니다.#Review#GUI Grounding#MLLMs#Reinforcement Learning#Policy Optimization#Exploration Strategy#Semantic Alignment#Adaptive Exploration Reward#Human-Computer Interaction2025년 8월 11일댓글 수 로딩 중
[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.#Review#GUI Grounding#Vision-Language Models#Positional Embedding#UI Automation#Coordinate Prediction#Resolution Generalization#Transformer Architecture2025년 10월 6일댓글 수 로딩 중
[논문리뷰] UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning본 논문은 GUI 그라운딩(grounding) 태스크에서 자연어 명령어의 다양성과 품질 이 모델 성능에 미치는 영향을 간과했던 기존 연구의 한계를 극복하고자 합니다. 명령어에 존재하는 23.3%의 오류율 을 개선하고, 추론 시 명령어 다양성 을 활용하여 최대 76%의 상대적 성능 향상 을 목표로 합니다.#Review#GUI Grounding#Natural Language Instructions#Multi-Perspective Reasoning#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Policy Collapse Mitigation#GUI Agents2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents본 논문은 낮은 지연 시간, 강력한 프라이버시 보장 및 제한된 연결성 환경에서 견고한 동작을 요구하는 온디바이스 GUI 에이전트 개발의 과제를 해결하고자 합니다.#Review#GUI Agents#On-Device AI#Multimodal LLM#GUI Grounding#GUI Navigation#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data2025년 10월 1일댓글 수 로딩 중