[논문리뷰] Terminal Agents Suffice for Enterprise Automation

2026년 4월 1일수정: 2026년 4월 1일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Patrice Bechard, Orlando Marquez Ayala, Emily Chen, Jordan Skelton, Sagar Davasam, Srinivas Sunkara, Vikas Yadav, Sai Rajeswar, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Terminal Agent : 브라우저 인터페이스 대신 터미널 환경과 파일시스템을 사용하여 플랫폼 API와 직접 상호작용하는 에이전트입니다.
MCP (Model Context Protocol) : LLM이 다양한 데이터 소스 및 도구와 표준화된 방식으로 상호작용할 수 있도록 설계된 개방형 표준 프로토콜입니다.
GUI-driven Agent : 웹 인터페이스 내에서 DOM 요소와 스크린샷을 관찰하고 클릭, 타이핑 등 인간의 사용자 행동을 모방하여 작업하는 에이전트입니다.
Success Rate (SR) : 자동화된 플랫폼 환경에서 에이전트가 주어진 작업을 완료했는지 여부를 프로그램적으로 검증하여 산출한 성능 지표입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기업 자동화(Enterprise Automation) 환경에서 복잡한 에이전트 아키텍처가 실제로 필요한지에 대해 의문을 제기합니다. 현재 GUI 기반 에이전트와 도구 중심(MCP 등) 에이전트가 주류를 이루고 있으나, 이들은 추가적인 추상화 계층 도입으로 인한 높은 비용과 운영 효율성 저하라는 트레이드오프를 가집니다 [Figure 1]. 기존 연구는 플랫폼과 모델 사이에 구조화된 추상화를 강제함으로써 도구 활용의 유연성을 제한하고 인터페이스 변화에 취약하게 만듭니다. 저자들은 강력한 파운데이션 모델이 있다면 직접적인 프로그래밍 인터페이스만으로도 기업 자동화 작업을 충분히 수행할 수 있음을 입증하고자 합니다.

Figure 1: 에이전트별 작업 실행 방식 비교

Figure 1 — 에이전트별 작업 실행 방식 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 터미널과 파일시스템을 통해 플랫폼 API와 직접 통신하는 최소한의 코딩 에이전트인 StarShell 을 제안합니다 [Figure 2]. StarShell 은 사전 정의된 도구 레지스트리에 의존하지 않고, 문서나 API 응답을 통해 능동적으로 기능을 발견하고 작업을 구성합니다. 3개의 대규모 기업 플랫폼(ServiceNow, GitLab, ERPNext) 환경에서 4개의 frontier LLM backbone으로 실험한 결과, StarShell 은 GUI 기반 에이전트와 대등한 성공률을 기록하면서도 비용은 5배 이상 저렴한 경우가 많았습니다 [Table 2]. 특히 Terminal Agent 는 문서 검색이나 도구 호출 효율성 측면에서 다른 방식보다 뛰어난 cost-performance tradeoff를 보였습니다. 또한, 에이전트가 수행한 작업을 '기술(Skills)'로 저장하여 재사용하도록 설정했을 때, 작업 성공률이 향상되고 반복적인 탐색 비용이 현저히 감소함을 확인했습니다 [Figure 3].

Figure 2: StarShell 에이전트 아키텍처

Figure 2 — StarShell 에이전트 아키텍처

Figure 3: 기술(Skill) 축적을 통한 효율 개선

Figure 3 — 기술(Skill) 축적을 통한 효율 개선

4. Conclusion & Impact (결론 및 시사점)

본 논문은 엔터프라이즈 자동화 분야에서 지나치게 복잡한 추상화 계층보다는 안정적이고 직접적인 프로그래밍 인터페이스를 제공하는 것이 더 효과적임을 입증했습니다. 터미널 기반 에이전트는 GUI의 취약성과 큐레이팅된 도구의 제약을 극복하며 실질적인 자동화 생산성을 제공합니다. 이 연구는 기업 환경에서 AI 에이전트를 구축할 때 에이전트 스택의 간소화가 실용적이고 비용 효율적인 전략이 될 수 있음을 시사합니다. 향후 연구는 여러 플랫폼에 걸친 장기 작업 조정과 인간의 감독 하에 안전하게 작동하는 시스템 고도화로 이어질 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines
현재글 : [논문리뷰] Terminal Agents Suffice for Enterprise Automation
다음글 [논문리뷰] Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding