[논문리뷰] OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models본 논문은 전문적인 실무 영역에서 AI 에이전트의 역량을 평가할 수 있는 표준화된 벤치마크가 부재한 문제를 해결하기 위해 OccuBench를 제안한다. 기존의 벤치마크들은 웹 브라우징이나 코드 저장소와 같은 제한된 환경에만 국한되어 있어, 실제 산업 현장에서 요구되는 의사결정 기반의 복잡한 업무를 평가하지 못한다.#Review#AI Agents#Language World Models#Professional Tasks#Environmental Robustness#Fault Injection#Benchmark2026년 4월 15일댓글 수 로딩 중