[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding TokensYue Yang이 arXiv에 게시한 'MolmoPoint: Better Pointing for VLMs with Grounding Tokens' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Grounding Tokens#Pointing#GUI Grounding#Video Grounding#Sample Efficiency2026년 3월 30일댓글 수 로딩 중
[논문리뷰] UI-Venus-1.5 Technical ReportarXiv에 게시된 'UI-Venus-1.5 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#GUI Agent#MLLM#Reinforcement Learning#Model Merging#GUI Grounding#Task Navigation#Online-RL#Offline-RL2026년 2월 10일댓글 수 로딩 중
[논문리뷰] POINTS-GUI-G: GUI-Grounding JourneyLe Tian이 arXiv에 게시한 'POINTS-GUI-G: GUI-Grounding Journey' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering#UI Automation#Perception-intensive AI2026년 2월 8일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding TasksarXiv에 게시된 'VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중
[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using AgentsarXiv에 게시된 'GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Using Agents#GUI Grounding#Screen Parsing#Action Prediction#Desktop Automation#Dataset#Benchmark#Multimodal Learning#LLM-augmented Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI GroundingWanrong Zhu이 arXiv에 게시한 'GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Multimodal Attention#MLLMs#Coordinate-Free#Visual Grounding#Attention Weighting#Anchor Token2025년 11월 9일댓글 수 로딩 중
[논문리뷰] HyperClick: Advancing Reliable GUI Grounding via Uncertainty CalibrationAnan Du이 arXiv에 게시한 'HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Uncertainty Calibration#Reinforcement Learning#Confidence Estimation#Brier Score#GUI Agents#Visual-Language Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-ReasoningarXiv에 게시된 'UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Natural Language Instructions#Multi-Perspective Reasoning#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Policy Collapse Mitigation#GUI Agents2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate MappingSpandana Gella이 arXiv에 게시한 'Improving GUI Grounding with Explicit Position-to-Coordinate Mapping' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Vision-Language Models#Positional Embedding#UI Automation#Coordinate Prediction#Resolution Generalization#Transformer Architecture2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI AgentsarXiv에 게시된 'Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents' 논문에 대한 자세한 리뷰입니다.#Review#GUI Agents#On-Device AI#Multimodal LLM#GUI Grounding#GUI Navigation#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data2025년 10월 1일댓글 수 로딩 중
[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform DataZehao Li이 arXiv에 게시한 'ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data' 논문에 대한 자세한 리뷰입니다.#Review#Computer Use Agents#Vision-Language Models#Cross-Platform Data#GUI Automation#Data Scaling#Open-Source#Task Completion#GUI Grounding2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region ConsistencyZhengxi Lu이 arXiv에 게시한 'Test-Time Reinforcement Learning for GUI Grounding via Region Consistency' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Test-Time Scaling#Reinforcement Learning#Region Consistency#Spatial Voting#Self-Supervised Learning#Vision-Language Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy OptimizationPengxiang Li이 arXiv에 게시한 'InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#MLLMs#Reinforcement Learning#Policy Optimization#Exploration Strategy#Semantic Alignment#Adaptive Exploration Reward#Human-Computer Interaction2025년 8월 11일댓글 수 로딩 중