[논문리뷰] TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks본 논문은 기존의 수동으로 큐레이션된 터미널 벤치마크가 실세계의 복잡성과 변화를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 도메인 전문가들이 제작한 인위적인 퍼즐 위주로 구성되어 있어, 실제 개발 환경에서 발생하는 워크플로우와 괴리가 있다는 문제가 있습니다.#Review#TerminalWorld#Autonomous Agents#Benchmark#CLI#Data Engine#Reverse-Engineering#Docker2026년 5월 21일댓글 수 로딩 중