#Hybrid Interface

1개의 포스트

[논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

기존의 컴퓨터 에이전트 평가 벤치마크는 주로 단일 브라우저 기반 작업에 국한되어 있어, 실제 데스크톱 환경의 복잡한 Long-Horizon 작업 수행 능력을 평가하는 데 한계가 있습니다.

#Review #Computer-Use Agent #Long-Horizon #Real-World Benchmark #Hybrid Interface #Human-Computer Interaction #Agent Evaluation

2026년 6월 11일