[논문리뷰] Continual Harness: Online Adaptation for Self-Improving Foundation Agents

2026년 5월 12일수정: 2026년 5월 12일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Seth Karten, Joel Zhang, Tersoo Upaa Jr, Ruirong Feng, Wenzhe Li, Chengshuai Shi, Chi Jin, Kiran Vodrahalli

1. Key Terms & Definitions (핵심 용어 및 정의)

Agentic Harness: Foundation Model에 도구, 메모리, 계획 기능을 부여하여 상호작용을 매개하는 스캐폴딩(scaffolding) 레이어입니다.
Continual Harness: 환경 초기화(reset) 없이, 게임플레이 도중 수집된 궤적(trajectory) 데이터를 바탕으로 시스템 프롬프트, 서브 에이전트, 스킬, 메모리를 실시간으로 자동 정제하는 프레임워크입니다.
Reset-Free Framework: 에피소드 종료 후 환경을 초기화하는 방식 대신, 하나의 연속적인 실행 과정 내에서 학습과 개선이 누적되는 시스템을 의미합니다.
Refiner: 최근 궤적을 분석하여 Failure Signature를 식별하고, Harness의 구성 요소를 수정하는 역할을 수행하는 모델 기반 컴포넌트입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 embodied agent가 복잡하고 긴 호흡의 환경에서 명확한 도메인 스캐폴딩 없이도 자율적으로 학습하고 진화할 수 있는 체계를 구축하고자 합니다 [Figure 1]. 기존 코딩 에이전트와 달리,embodied agent를 위한 효과적인 Harness는 수동으로 설계하거나 인적 개입이 필요한 경우가 많아 확장성에 한계가 있었습니다. 연구진은 Gemini Plays Pokémon(GPP) 프로젝트를 통해 인간의 개입이 에이전트의 전략적 개선을 도울 수 있음을 입증했으나, 이러한 인간 주도의 정제 과정을 자동화하여 에이전트가 스스로 환경에 적응하도록 하는 것이 본 연구의 핵심 당면 과제입니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 에이전트가 acting과 harness refinement를 교대로 수행하는 Two-Loop Architecture를 제안합니다 [Figure 2]. Inner Loop는 표준적인 에이전트의 환경 상호작용이며, Outer Loop는 주기적인 단계(FF steps)마다 Refiner가 궤적을 분석하여 시스템 프롬프트, 서브 에이전트, 스킬, 메모리를 CRUD 방식으로 편집하는 과정을 담당합니다. 실험 결과, Continual Harness는 Pokémon Red 및 Emerald 환경에서 별도의 도메인 지식이나 hand-crafted 도구 없이도 Minimalist Baseline 대비 버튼 입력 효율을 크게 개선했습니다 [Figure 5]. 특히, Gemini 3 Pro 모델의 경우 hand-engineered expert harness와의 성능 격차를 대부분 회복하며 파레토 우위(Pareto-dominant)를 보였습니다 [Figure 6]. 또한, 오픈소스 Gemma-4 모델을 대상으로 한 online co-learning loop를 통해, frontier teacher 모델의 보상 신호를 활용하여 재설정 없이 지속적으로 게임 내 마일스톤을 달성하는 성과를 확인했습니다 [Figure 7].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 에이전트가 스스로 스캐폴딩을 구축하고 정제하는 Continual Harness를 통해 embodied agent의 온라인 적응 역량을 혁신적으로 향상시켰습니다. 연구진은 인간의 개입 없이도 모델이 환경과 상호작용하며 자신의 능력을 점진적으로 고도화하는 메커니즘을 성공적으로 구현하였습니다. 이 연구는 복잡하고 partially observable한 환경에서 AI 에이전트가 외부 설계자 없이도 지속적으로 실력을 향상할 수 있음을 입증하며, 차세대 자율 에이전트 개발을 위한 중요한 방법론적 토대를 제공합니다.

Part 2: 중요 Figure 정보

Figure 1: Continual Harness의 자동화 프로세스

Figure 1 — Continual Harness의 자동화 프로세스

Figure 2: 방법론 개요 및 두 개의 루프 구조

Figure 2 — 방법론 개요 및 두 개의 루프 구조

Figure 5: 마일스톤 달성 및 버튼 입력 효율 비교

Figure 5 — 마일스톤 달성 및 버튼 입력 효율 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training
현재글 : [논문리뷰] Continual Harness: Online Adaptation for Self-Improving Foundation Agents
다음글 [논문리뷰] Do not copy and paste! Rewriting strategies for code retrieval