[논문리뷰] VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation본 논문은 자율형 GUI 에이전트가 직면한 early stopping과 repetitive loops라는 두 가지 근본적인 문제를 해결하기 위해 VLAA-GUI를 제안합니다. 기존 에이전트들은 작업 완료 여부를 불명확하게 판단하여 미완성 상태에서 성공을 선언하거나, 동일한 실패 행동을 반복적으로 수행하는 한계를 보입니다.#Review#GUI Automation#Agentic Framework#Completeness Verifier#Loop Breaker#Search Agent#Multimodal LLM2026년 4월 23일댓글 수 로딩 중
[논문리뷰] KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation본 논문은 현재의 모바일 에이전트 벤치마크가 사용자의 개인화된 요구사항을 이해하거나 선제적인 의사결정을 내리는 실제 서비스 환경을 제대로 반영하지 못한다는 문제에서 출발합니다.#Review#Mobile Agent#Personalization#Proactive Assistance#Interactive Benchmarking#User Simulation#GUI Automation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents현재 명시적 지시에만 반응하는 GUI 에이전트 의 한계를 극복하고, 사용자의 암묵적인 의도를 연속적인 시각 입력(스크린샷)으로부터 예측 하여 시기적절한 추천을 제공하는 능동형(Proactive) AI 비서 를 개발하는 것을 목표로 합니다.#Review#Proactive Agents#GUI Automation#Intent Recommendation#Multimodal LLMs#Benchmark#Memory-aware Framework#Human-Computer Interaction2026년 3월 9일댓글 수 로딩 중
[논문리뷰] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution본 연구는 GUI 자동화의 핵심 과제인 GUI 플래닝의 확장성 문제를 해결하는 것을 목표로 합니다. 기존 방식의 스텝 중복과 낮은 궤적 다양성, 그리고 인간 주석 의존성으로 인한 데이터 부족 문제를 극복하고, 고품질의 대규모 GUI 궤적 데이터를 효율적으로 합성하는 방법론을 제시합니다.#Review#GUI Automation#Computer-Use Agents#Trajectory Synthesis#Tree-Structured Exploration#Multi-Agent Framework#Reinforcement Learning#DPO#Data Efficiency2026년 2월 10일댓글 수 로딩 중
[논문리뷰] SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization본 논문은 검증 가능한 보상 기반 강화 학습(RLVR)에서 이진 보상(binary rewards) 의 한계(최적화 모호성, 학습 비효율성, 정책 취약성)를 해결하고자 합니다.#Review#Reinforcement Learning#Reward Shaping#Agent Optimization#GUI Automation#Complex Reasoning#Sample Efficiency#Tiered Rewards2026년 2월 1일댓글 수 로딩 중
[논문리뷰] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience본 논문은 정적 데이터 스케일링의 한계로 인해 장기적인 컴퓨터 사용 작업에서 복잡한 인과적 역학을 포착하는 데 어려움을 겪는 네이티브 컴퓨터 사용 에이전트(CUA) 의 문제를 해결하고자 합니다.#Review#Computer Use Agent#Synthetic Experience#Evolutionary Learning#Reinforcement Learning#Direct Preference Optimization#GUI Automation#Scalable Infrastructure#Verifiable Synthesis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands기존 GUI 에이전트들이 주로 이산적인 클릭 예측에 의존하여 연속적이고 자유로운 형태의 드래그(예: 그림 그리기, 캡차 풀이)와 같이 즉각적인 시각적 인지와 조정이 필요한 복잡한 GUI 상호작용을 수행하기 어렵다는 문제를 해결합니다.#Review#GUI Automation#Flow-based Generative Models#Continuous Control#Vision-Language Models#Human-Computer Interaction#ScreenDrag Benchmark#Dexterous Manipulation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents본 논문은 복잡한 GUI 태스크에서 자율 에이전트 개발을 위한 에이전트 강화 학습( Agentic RL )의 주요 병목인 태스크 완료 검증의 비효율성과 신뢰성 문제 를 해결하고자 합니다.#Review#Agentic RL#Self-Verifying Agents#GUI Automation#Evidence Curation#LLM-as-a-Judge#Reward Shaping#AndroidLab2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Step-GUI Technical Report논문은 GUI 자동화 분야에서 고품질 훈련 데이터를 효율적이고 신뢰성 있게 확보하는 근본적인 문제를 해결하고자 합니다. 또한, 이종 기기 간의 표준화된 인터페이스를 구축하여 사용자 개인 정보를 보호하고, 실제 일상적인 사용 패턴에 기반한 평가 벤치마크를 통해 에이전트의 실용성을 검증하는 것을 목표로 합니다.#Review#GUI Automation#Self-Evolving Pipeline#Reinforcement Learning#Multimodal LLMs#Privacy-Preserving AI#Human-Computer Interaction#Model Context Protocol#Benchmarking2025년 12월 17일댓글 수 로딩 중
[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.#Review#Computer Use Agents#Vision-Language Models#Cross-Platform Data#GUI Automation#Data Scaling#Open-Source#Task Completion#GUI Grounding2025년 9월 19일댓글 수 로딩 중
[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning본 논문은 GUI(Graphical User Interface) 에이전트의 자동화에서 기존 오프라인 RL 의 제한된 다중 턴 추론 능력과 온라인 RL 의 높은 배포 비용 및 희소한 보상 문제를 해결하는 것을 목표로 합니다.#Review#GUI Automation#Reinforcement Learning#Semi-online RL#Offline RL#Online RL#Patch Module#Multi-turn Interaction#Large Language Models2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.#Review#GUI Automation#Multimodal Agents#Foundational Models#Reinforcement Learning#Large Language Models#Cross-Platform#Self-Supervised Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] CoAct-1: Computer-using Agents with Coding as Actions이 논문은 복잡하고 장기적인 컴퓨터 사용 태스크에서 GUI(Graphical User Interface) 기반 자율 에이전트의 효율성과 신뢰성 문제를 해결하는 것을 목표로 합니다.#Review#AI Agent#Multi-agent System#GUI Automation#Programmatic Control#Code Generation#OSWorld Benchmark#Hybrid AI2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Surfer 2: The Next Generation of Cross-Platform Computer Use Agents이 논문은 웹, 데스크톱, 모바일 환경 전반에 걸쳐 일반화하는 에이전트를 구축하는 문제를 해결하고자 합니다.#Review#Computer Use Agent#Cross-Platform#GUI Automation#Vision-Language Model#Hierarchical Architecture#Agent Orchestration#Visual Interaction2025년 10월 31일댓글 수 로딩 중
[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents기존 GUI agent 벤치마크들이 Model Context Protocol (MCP)을 통한 도구 호출(tool invocation) 능력을 간과하여 GUI 상호작용만 평가하는 한계를 극복하고자 합니다.#Review#Multimodal Agents#Tool Invocation#Benchmark#Model Context Protocol (MCP)#GUI Automation#Computer-Use Agents#Evaluation Metrics2025년 10월 29일댓글 수 로딩 중
[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.#Review#Computer Use Agents#Hybrid Action#Foundation Models#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data Generation#Tool Learning#GUI Automation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] FineVision: Open Data Is All You Need파편화되고 일관성 없으며 오염된 공개 데이터셋으로 인해 저해되는 Vision-Language Model (VLM) 연구의 한계를 극복하는 것이 목표입니다.#Review#Multimodal Datasets#VLM#Data Curation#Data Hygiene#De-duplication#Human-in-the-loop#GUI Automation#Test-set Decontamination2025년 10월 21일댓글 수 로딩 중