[논문리뷰] Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams

2026년 6월 2일수정: 2026년 6월 2일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Zewen Liu, Zhan Shi, Yisi Sang, Bing He, Minhua Lin, Tianxin Wei, Dakuo Wang, Benoit Dumoulin, Wei Jin, Hanqing Lu

1. Key Terms & Definitions (핵심 용어 및 정의)

Auto-Harness: LLM 기반 에이전트의 성능을 향상시키기 위해 실행 피드백을 기반으로 prompts, skills, tools 및 인프라를 자동으로 구성하고 최적화하는 시스템입니다.
Open-Ended Task Streams: 고정된 종료 지점 없이 태스크가 지속적으로 유입되며, 데이터 분포가 시간에 따라 변화(Non-stationary)하는 현실적인 에이전트 배포 환경을 의미합니다.
Harness Tree: 이질적인 태스크 유형별로 특화된 프롬프트, 스킬, 도구 세트를 계층적으로 관리하고, 해결 시점에 적합한 브랜치를 선택(routing)할 수 있게 하는 구조화된 저장소입니다.
Evolution Loss (Levo): 에이전트의 학습(evolution) 능력이 부족하여 히스토리 데이터로부터 최적의 Harness를 구축하지 못하는 구조적 성능 격차를 정의합니다.
Adaptation Loss (Ladapt): 이미 생성된 단일 Harness가 이질적인 태스크에 모두 최적화될 수 없어 발생하는, 해결 시점에서의 유연성 부족으로 인한 성능 격차를 의미합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 Auto-Harness 시스템들이 고정된 오프라인 벤치마크에서는 우수한 성능을 보이지만, 실제 Open-Ended Task Streams 환경에서는 성능 저하를 겪는다는 문제를 해결합니다 [Figure 2]. 기존 방식은 모든 태스크에 대해 단일하고 밀집된(dense) Harness를 반복적으로 업데이트하며 배포하는데, 이로 인해 히스토리가 쌓일수록 컨텍스트 윈도우의 병목 현상이 발생하고, 특정 태스크 유형에 편향된 학습으로 인해 분포가 다른 미래 태스크에서 성능이 급격히 하락합니다 [Figure 1]. 저자들은 이러한 현상을 분석하기 위해 Evolution Loss와 Adaptation Loss로 구성된 분석적 프레임워크를 제안하며, 이를 해결하기 위한 Sustained Self-Improvement 접근 방식이 필수적임을 강조합니다.

Figure 1: 과도한 진화가 성능 저하를 유발하는 현상

Figure 1 — 과도한 진화가 성능 저하를 유발하는 현상

Figure 2: 태스크 스트림의 3가지 배포 차원

Figure 2 — 태스크 스트림의 3가지 배포 차원

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Adaptive Auto-Harness 시스템을 통해 Evolution Loss를 줄이기 위한 Multi-Agent Evolver와 Adaptation Loss를 해결하기 위한 Harness-Tree Routing을 제안합니다 [Figure 3]. Multi-Agent Evolver는 분석, 연구, 구현, 검증의 4단계로 역할을 분담하여 단일 에이전트의 한계를 극복하고, Harness-Tree Routing은 태스크 컨텍스트에 맞춰 가장 적합한 Harness 브랜치를 선택하여 solve-time adaptation을 수행합니다 [Figure 3]. 실험 결과, Adaptive Auto-Harness는 PolyBench, CTF-Dojo, FutureX 등 3가지 스트리밍 벤치마크에서 기존의 A-Evolve, GEPA, Meta-Harness 등을 상회하는 성능을 기록했습니다 [Table 2]. 특히 PolyBench에서 Accuracy 80.9%, Return +352% 향상을 달성하였으며, CTF-Dojo에서는 50.2%의 Pass@1 성능을 보였습니다. 추가적으로 수행한 Human-in-the-Loop 조사를 통해 외부 지식이나 소스 접근이 필요한 경우 human steering이 성능을 크게 개선함을 입증하였습니다 [Figure 9].

Figure 3: Adaptive Auto-Harness 전체 구조

Figure 3 — Adaptive Auto-Harness 전체 구조

4. Conclusion & Impact (결론 및 시사점)

본 연구는 Open-Ended Task Streams 환경에서 에이전트가 지속적으로 성능을 향상시킬 수 있는 Adaptive Auto-Harness 프레임워크를 정립하였습니다. Harness 구성의 캡빌리티를 높이는 Multi-Agent Evolution과 태스크별 최적화를 수행하는 Harness-Tree Routing, 그리고 외부 신호를 보완하는 Human-in-the-Loop의 3단계 메커니즘을 통해 배포 환경에서의 고질적인 성능 정체 문제를 해결했습니다. 이 연구는 LLM 기반 에이전트 시스템을 실제 배포 환경에 안정적으로 적용하기 위한 체계적인 가이드라인을 제시하며, 향후 지속적인 학습과 적응이 필요한 다양한 AI 에이전트 분야에 중요한 토대가 될 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] AURA: Action-Gated Memory for Robot Policies at Constant VRAM
현재글 : [논문리뷰] Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
다음글 [논문리뷰] AutoMedBench: Towards Medical AutoResearch with Agentic AI Models