[논문리뷰] CEO-Bench: Can Agents Play the Long Game?본 논문은 기존의 에이전트 평가 방식이 단기 작업(Short-horizon tasks)에 치우쳐 있어, 실제 세계의 복잡한 의사결정 과정을 검증하지 못한다는 문제 의식에서 출발한다 .#Review#Long-Horizon#Agent Evaluation#Business Simulation#Decision Making#Partial Observability#Strategic Planning#Autonomous Agents2026년 6월 17일댓글 수 로딩 중