[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.#Review#Language Agents#Benchmarking#Expert Evaluation#Economic Value#Professional Tasks#Rubric-based Evaluation#Multi-step Reasoning#Reliability#Domain Adaptation2026년 3월 9일댓글 수 로딩 중