#Computer Use Agents

5개의 포스트

[논문리뷰] Fara-7B: An Efficient Agentic Model for Computer Use

본 논문은 컴퓨터 사용 에이전트(CUA) 훈련을 위한 고품질 상호작용 데이터의 부족 문제 를 해결하고, 적은 연산 자원으로 온디바이스에서 실행 가능한 효율적인 에이전트 모델 을 개발하는 것을 목표로 합니다. 이를 통해 CUA 기술의 상업적 활용 가능성을 확장하고 범용 개인 디지털 비서의 길을 열고자 합니다.

#Review #Computer Use Agents #Synthetic Data Generation #Multi-modal LLM #On-device AI #Web Automation #Pixel-in Action-out #Fara-7B #WebTailBench

2025년 11월 25일

[논문리뷰] Grounding Computer Use Agents on Human Demonstrations

이 연구는 컴퓨터 사용 에이전트(CUA)의 핵심 과제인 'grounding'의 신뢰성을 높이는 것을 목표로 합니다.

#Review #Computer Use Agents #UI Grounding #Desktop Applications #Human Demonstrations #Large-Scale Dataset #Vision-Language Models #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 11일

[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.

#Review #Computer Use Agents #Vision-Language Models #Cross-Platform Data #GUI Automation #Data Scaling #Open-Source #Task Completion #GUI Grounding

2025년 9월 19일

[논문리뷰] Watch and Learn: Learning to Use Computers from Online Videos

컴퓨터 사용 에이전트(CUA)가 다양한 애플리케이션에서 복잡한 작업을 수행할 수 있도록 지원하는 것을 목표로 합니다.

#Review #Computer Use Agents #Inverse Dynamics Model #UI Trajectories #Web Videos #In-Context Learning #Supervised Fine-Tuning #Large Language Models #OSWorld Benchmark

2025년 10월 7일

[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.

#Review #Computer Use Agents #Hybrid Action #Foundation Models #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data Generation #Tool Learning #GUI Automation

2025년 10월 21일