[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.#Review#AI Agents#Benchmark#Information Environments#Multi-source Reasoning#Belief Revision#Implicit Personalization2026년 4월 6일댓글 수 로딩 중