[논문리뷰] Code as Agent Harness
링크: 논문 PDF로 바로 열기
Part 1: 요약 본문
저자: Xuying Ning, Katherine Tieu, Dongqi Fu, et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- Agent Harness: LLM을 툴, Sandbox, 메모리, 검증기(Validator) 등과 연결하여, 상태를 유지하고 장기적인 작업을 수행할 수 있도록 지원하는 시스템 소프트웨어 계층.
- Code as Agent Harness: 코드를 단순히 모델의 결과물로 보지 않고, 에이전트의 추론, 행동, 환경 모델링 및 검증을 수행하는 실행 가능하고(executable) 검사 가능한(inspectable) 운영 기판으로 정의하는 프레임워크.
- PEV Loop (Plan-Execute-Verify): 에이전트의 작업 수행 과정을 제어하는 핵심 루프. 계획을 통해 의도를 구체화하고, 샌드박스 환경에서 실행하며, 결정론적 센서와 검증기를 통해 상태를 확인하는 제어 프로세스.
- Agentic Harness Engineering (AHE): 에이전트의 운영 환경(툴 스키마, 메모리 정책, 페르소나, 검증 로직 등)을 측정하고 최적화하여 신뢰성을 높이는 설계 학문.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 LLM 기반 에이전트 시스템에서 코드가 단순한 생성 대상(target artifact)을 넘어, 시스템의 핵심 운영 인프라로 전환되고 있다는 점을 지적한다. 기존의 에이전트 설계는 모델의 추론 능력에만 집중한 나머지, 모델의 출력을 외부 행동으로 연결하고 지속적인 상태를 유지하는 'Harness'의 신뢰성 문제를 간과해 왔다 [Figure 1]. 이러한 시스템적 불투명성은 장기 실행(long-horizon) 에이전트가 복잡한 소프트웨어 공학 작업이나 물리적 제어 환경에서 실패하게 만드는 핵심 요인이다. 저자들은 기존의 파편화된 접근 방식을 넘어, 코드를 중심에 둔 통합적인 Harness 설계 프레임워크가 필요함을 역설한다.

Figure 1 — 에이전트 Harness의 분류 체계
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 'Code as Agent Harness'라는 관점을 체계화하기 위해 세 가지 핵심 계층을 제안한다. 첫째, Harness Interface 계층은 코드를 통해 에이전트의 추론, 행동, 환경 모델링을 실행 가능하고 검증 가능한 구조로 변환한다 [Figure 2]. 둘째, Harness Mechanisms 계층은 계획(Planning), 메모리 관리, 툴 사용, 그리고 PEV 루프를 통한 제어를 통해 에이전트의 장기적인 신뢰성을 확보한다 [Figure 4]. 셋째, Scaling the Harness 계층은 단일 에이전트를 넘어 다중 에이전트 협업 환경에서 코드 아티팩트를 공유하여 조율을 최적화하는 방안을 다룬다 [Figure 10]. 정량적으로는, 제안된 코드 기반 프레임워크가 순수 텍스트 기반 추론 모델 대비 복잡한 문제 해결 상황에서 실행 성공률(Functional Success Rate) 및 검증 정확도(Verification Accuracy) 측면에서 유의미한 성능 향상을 보였다. 특히 Deep Telemetry 기반의 Harness 최적화는 에이전트의 실패 원인 분석 속도를 기존 대비 비약적으로 개선하였으며, 코드 기반의 다중 에이전트 조율은 태스크 완료 시간을 복합적인 엔지니어링 환경에서 평균 30-50% 단축시키는 성과를 거두었다.

Figure 4 — 에이전트 Harness의 주요 메커니즘

Figure 10 — 다중 에이전트 기반의 Harness 확장
4. Conclusion & Impact (결론 및 시사점)
본 연구는 코드를 'AI 에이전트의 운영 기판'으로 재정의함으로써, 실행 가능하고 검증 가능한 AI 에이전트 시스템을 향한 통합적인 로드맵을 제시한다. 제안된 프레임워크는 소프트웨어 공학 보조 도구뿐만 아니라 GUI 자동화, 로봇 제어, 과학적 발견 등 다양한 도메인에서 에이전트의 신뢰성을 확보하는 핵심 토대가 될 것이다. 이 연구는 향후 에이전트 연구가 모델의 지능 강화와 더불어 시스템적 Harness 설계와 최적화(Harness Engineering)로 확장되어야 함을 시사한다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents
- [논문리뷰] Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis
- [논문리뷰] RewardHarness: Self-Evolving Agentic Post-Training
- [논문리뷰] Results and Retrospective Analysis of the CODS 2025 AssetOpsBench Challenge
- [논문리뷰] AI Co-Mathematician: Accelerating Mathematicians with Agentic AI
댓글