[논문리뷰] OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks본 논문은 기존의 컴퓨터 사용 벤치마크들이 지나치게 단기적이고 단순한 작업 위주로 구성되어 있어, 실제 실무 환경에서의 복잡한 Long-Horizon 업무를 평가하기에 한계가 있다는 점을 지적한다.#Review#Computer-Use Agents#Long-Horizon Tasks#Benchmark#Multimodal Agents#Reasoning#Task-Level Planning#Autonomous Agents2026년 6월 29일댓글 수 로딩 중