[논문리뷰] TUA-Bench: A Benchmark for General-Purpose Terminal-Use Agents
링크: 논문 PDF로 바로 열기
메타데이터
저자: Shoufa Chen, Luyuan Wang, Xuan Yang, Zhiheng Liu, Yuren Cong, Yuanfeng Ji, Feiyan Zhou, Xiaohui Zhang, Fanny Yang, Belinda Zeng
1. Key Terms & Definitions (핵심 용어 및 정의)
- TUA-Bench: 일상적인 디지털 작업부터 전문적인 과학/엔지니어링 워크플로우까지 아우르는, 터미널 환경 기반의 범용(General-purpose) 에이전트 평가 벤치마크입니다.
- Terminal-Use Agents (TUAs): GUI 대신 CLI를 통해 컴퓨터 시스템과 상호작용하며 복잡한 다단계 작업을 계획, 실행, 검증하는 AI 에이전트입니다.
- Execution-Grounded Scoring: 에이전트의 수행 결과를 실제 터미널 환경에서 자동화된 verifier를 통해 검증하여 점수를 매기는 평가 프로토콜입니다.
- Harbor: TUA-Bench의 실행 인프라로서, 작업 설정, 환경 격리(Docker/Podman), 실행 제어 및 결과 수집을 담당하는 orchestration framework입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존 컴퓨터 사용 벤치마크들이 GUI 환경이나 특정 도메인(주로 코딩)에 편향되어 있어, 일반적인 터미널 환경에서의 범용적인 에이전트 능력을 평가하는 데 한계가 있다는 문제 의식에서 출발합니다. 기존 GUI 기반 벤치마크는 시각적 인식과 좌표 중심의 제어에 치중하며, 터미널 기반 벤치마크들은 주로 소프트웨어 엔지니어링 등 프로그래밍 작업에 국한되어 있습니다. 저자들은 CLI가 대규모 언어 모델의 추론 능력과 도구 활용 능력을 평가하기에 훨씬 더 적합한 인터페이스라고 판단하였습니다 [Figure 1]. 이에 따라 터미널 환경을 범용 인터페이스로 활용하는 에이전트의 역량을 체계적으로 측정할 필요성이 대두되었습니다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
저자들은 일상적인 사무 작업과 도메인 전문가(PhD급)가 설계한 전문 과학 워크플로우를 포함한 총 120개의 실제 작업(Real-world tasks)으로 구성된 TUA-Bench를 구축하였습니다. 제안하는 방법론은 OSWorld 등에서 도출된 GUI 작업을 터미널 환경으로 변환하거나, 새로 정의된 과학적 워크플로우를 CLI 환경에 이식하여 인간 전문가의 검증을 거치는 방식을 취합니다 [Figure 2]. 벤치마크 평가는 Terminus-2, Claude Code, OpenHands 등 다양한 agent framework를 대상으로 수행되었습니다. 실험 결과, 현재 최고 성능을 보이는 Claude Code (with Claude Opus 4.8 max reasoning effort)는 65.8%의 성공률을 기록했습니다 [Table 3]. 연구를 통해 모델의 reasoning effort 증가가 전반적인 성능 향상(success rate)과 강한 상관관계가 있음을 확인하였으며, 모델의 성능은 에이전트 스캐폴드(scaffold) 종류에 따라 유의미한 차이를 보인다는 점을 입증하였습니다 [Figure 4], [Figure 5].
4. Conclusion & Impact (결론 및 시사점)
본 연구는 터미널을 기반으로 다양한 범용 작업을 수행하는 에이전트들을 위한 고품질 평가 체계를 확립하였습니다. 120개의 엄선된 과제는 단순히 코딩 능력을 넘어 도구 활용, 오류 복구, 장기적 계획 수립 등의 다각적인 역량을 테스트합니다. 이 벤치마크는 학계와 산업계가 Narrow-task 위주의 어시스턴트에서 범용적이고 신뢰할 수 있는 터미널 에이전트로 발전하는 가이드라인을 제시할 것으로 기대됩니다. 향후 연구에서는 더 광범위한 전문 분야를 포괄하고, 모델 학습 데이터와의 오염 문제를 방지하기 위한 지속적인 벤치마크 갱신이 중요할 것으로 보입니다.
Part 2: 중요 Figure 정보

Figure 1 — TUA-Bench 개요

Figure 2 — TUA-Bench 작업 분포

Figure 4 — 추론 노력에 따른 성능
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines
- [논문리뷰] Xiaomi-GUI-0 Technical Report
- [논문리뷰] Unlocking the Visual Record of Materials Science: A Large-Scale Multimodal Dataset from Scientific Literature
- [논문리뷰] TerraDiT-Ω: Unified Spatial Control for Satellite Image Synthesis with Any Geospatial Primitive
- [논문리뷰] SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History
Review 의 다른글
- 이전글 [논문리뷰] TACO: Tool-Augmented Credit Optimization for Agentic Tool Use
- 현재글 : [논문리뷰] TUA-Bench: A Benchmark for General-Purpose Terminal-Use Agents
- 다음글 [논문리뷰] The Surprising Effectiveness of Video Diffusion Models for Hand Motion Reconstruction
댓글