[논문리뷰] TUA-Bench: A Benchmark for General-Purpose Terminal-Use Agents본 논문은 기존 컴퓨터 사용 벤치마크들이 GUI 환경이나 특정 도메인(주로 코딩)에 편향되어 있어, 일반적인 터미널 환경에서의 범용적인 에이전트 능력을 평가하는 데 한계가 있다는 문제 의식에서 출발합니다.#Review#Terminal-Use Agents#General-Purpose Benchmark#Command-Line Interface#Execution-Grounded Evaluation#Scientific Workflows2026년 6월 29일댓글 수 로딩 중