#Task-Level Planning

1개의 포스트

[논문리뷰] OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks

본 논문은 기존의 컴퓨터 사용 벤치마크들이 지나치게 단기적이고 단순한 작업 위주로 구성되어 있어, 실제 실무 환경에서의 복잡한 Long-Horizon 업무를 평가하기에 한계가 있다는 점을 지적한다.

#Review #Computer-Use Agents #Long-Horizon Tasks #Benchmark #Multimodal Agents #Reasoning #Task-Level Planning #Autonomous Agents

2026년 6월 29일