[논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces기존의 컴퓨터 에이전트 평가 벤치마크는 주로 단일 브라우저 기반 작업에 국한되어 있어, 실제 데스크톱 환경의 복잡한 Long-Horizon 작업 수행 능력을 평가하는 데 한계가 있습니다.#Review#Computer-Use Agent#Long-Horizon#Real-World Benchmark#Hybrid Interface#Human-Computer Interaction#Agent Evaluation2026년 6월 11일댓글 수 로딩 중