[논문리뷰] Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents본 논문은 최신 GUI 에이전트가 뛰어난 성능을 보임에도 불구하고, 실행 과정에서 발생하는 Policy-Induced Errors를 인지하고 복구하는 능력이 부족하여 실제 배포에 한계가 있다는 문제를 해결하고자 합니다.#Review#GUI Agent#Robustness#Trajectory Synthesis#Policy-Induced Errors#Error Recovery#VLM2026년 5월 31일댓글 수 로딩 중
[논문리뷰] UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents본 논문은 모바일 GUI 자동화에서 lightweight 모델이 겪는 End-to-End 계획 수립의 한계를 극복하고자 합니다. 현재 대부분의 GUI 에이전트는 거대한 VLM에 의존하며, 이는 컴퓨팅 자원이 제한적인 온디바이스(on-device) 환경에서 높은 추론 비용과 신뢰성 부족 문제를 야기합니다.#Review#GUI Agent#Knowledge Graph#Autonomous Exploration#On-device AI#Lightweight Model#Mobile Automation2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents본 논문은 소규모(Small) 오픈소스 CUA들이 다양한 소프트웨어 환경에서 도메인 특화 성능이 여전히 부족하다는 점을 해결하고자 합니다.#Review#Computer-Use Agent#Domain Specialization#Annotation-free#Weakness-aware#Direct Preference Optimization#GUI Agent2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining본 논문은 GUI 에이전트의 일반화 성능을 저해하는 대규모 학습 데이터의 부족 문제를 해결하고자 합니다. 기존 연구들은 고비용의 수동 주석 데이터셋이나 제한적인 시뮬레이션 환경에 의존하여 확장성에 한계를 보입니다.#Review#GUI Agent#Pretraining#Interaction Trajectory#Multimodal Large Language Models#Scalable Data Synthesis#Action Grounding2026년 5월 20일댓글 수 로딩 중
[논문리뷰] GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction본 연구는 GUI Agent를 모바일 기기와 같은 자원 제약 환경에 효과적으로 배포하기 위해, 기존 대규모 VLM이 가진 과도한 연산 비용과 메모리 요구사항 문제를 해결하고자 한다. 대부분의 최신 VLM은 2.5B 이상의 파라미터를 사용하여 온디바이스 환경에서 활용하기 어렵다는 한계가 있다.#Review#GUI Agent#Vision-Language Model#Visual Grounding#Data Refinement#Model Compression#Encoder-Decoder Architecture2026년 4월 28일댓글 수 로딩 중
[논문리뷰] Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification본 논문은 최신 LLM 기반 코딩 에이전트들의 복잡한 End-to-End 웹사이트 개발 능력을 체계적으로 평가할 수 있는 표준화된 벤치마크의 부재를 해결하고자 한다.#Review#Multimodal Coding Agents#Website Development#Hierarchical Benchmark#Agent Verification#GUI Agent#VLM-based Judge2026년 4월 1일댓글 수 로딩 중
[논문리뷰] UI-Voyager: A Self-Evolving GUI Agent Learning via Failed ExperienceMultimodal Large Language Models (MLLMs)의 발전과 함께 자율 모바일 GUI Agent에 대한 관심이 증가하고 있지만, 기존 방법론들은 비효율적인 실패 궤적(failed trajectory) 학습과 장기(long-horizon) GUI 태스크에서 희소한 보상(sparse rewards)에 따른 모호한 Credit Assignment 문제에 직면하고 있습니다.#Review#GUI Agent#Self-Evolving Learning#Rejection Fine-Tuning (RFT)#Group Relative Self-Distillation (GRSD)#Credit Assignment#Sparse Rewards#Mobile Automation#Multimodal Large Language Models (MLLMs)2026년 3월 25일댓글 수 로딩 중
[논문리뷰] UI-Venus-1.5 Technical Report본 논문은 기존 GUI 에이전트의 일반성 및 일관된 고성능 달성 문제를 해결하기 위해, 강력한 실제 애플리케이션을 위한 통합된 엔드투엔드 GUI 에이전트인 UI-Venus-1.5 를 제안합니다.#Review#GUI Agent#MLLM#Reinforcement Learning#Model Merging#GUI Grounding#Task Navigation#Online-RL#Offline-RL2026년 2월 10일댓글 수 로딩 중
[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution본 논문은 모바일 및 데스크톱 환경 모두에서 자율적인 태스크 실행을 위한 범용 GUI(Graphical User Interface) 에이전트 모델인 OmegaUse 를 구축하는 것을 목표로 합니다.#Review#GUI Agent#Multimodal AI#MoE#Data Synthesis#Reinforcement Learning#Cross-Platform#Benchmarking2026년 1월 28일댓글 수 로딩 중
[논문리뷰] WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning본 논문은 웹사이트 코드 생성과 같이 시각적 요소와 사용자 상호작용 피드백이 중요한 태스크에서, 기존 코드 에이전트들이 단순한 코드 실행 피드백에만 의존하여 실제 웹사이트 품질을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#Website Generation#Code Agent#LLM#VLM#Reinforcement Learning#Multi-Level Feedback#GUI Agent#Step-GRPO2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Mano Report본 논문은 시각적 복잡성, 동적 환경, 다단계 추론 요구사항으로 인해 어려운 GUI 상호작용 자동화 문제를 해결하는 것을 목표로 합니다.#Review#GUI Agent#Multi-modal Foundation Model#Reinforcement Learning#Supervised Fine-tuning#Simulated Environment#Data Generation#Error Recovery#Web Automation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI AgentAI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.#Review#GUI Agent#Human-GUI Interaction#Cognitive Modeling#Reinforcement Learning#Multimodal Large Language Models#Attention Mechanisms#Action Planning2025년 9월 22일댓글 수 로딩 중
[논문리뷰] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning본 연구는 데이터 희소성, 확장 가능한 멀티-턴 강화 학습(RL), GUI 전용 작동의 한계, 환경 확장성 및 안정성 과 같은 자율 GUI 에이전트 개발의 주요 과제를 해결하는 것을 목표로 합니다.#Review#GUI Agent#Multi-Turn RL#Reinforcement Learning#Data Flywheel#Agent Framework#Hybrid Environments#Parameter Interpolation2025년 9월 3일댓글 수 로딩 중
[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and Planning이 논문은 Mobile/PC 환경에서 복잡한 작업을 자동화하는 GUI 에이전트 의 핵심 역량을 강화하는 오픈소스 파운데이션 모델, Ultron 을 제시합니다.#Review#GUI Agent#Foundational Model#Multimodal LLM#Perception#Planning#Reinforcement Learning#Data Engineering#Chinese App Scenarios2025년 9월 1일댓글 수 로딩 중