[논문리뷰] WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation본 연구는 기존 에이전트 벤치마크가 현실적인 배포 환경을 제대로 반영하지 못하는 한계를 해결하기 위해 수행되었다.#Review#Agent Evaluation#Long-Horizon#Native-Runtime#Multimodal#Reproducible#Hybrid Verification2026년 5월 14일댓글 수 로딩 중