[논문리뷰] Dockerless: Environment-Free Program Verifier for Coding Agents

2026년 6월 30일수정: 2026년 6월 30일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Wenhao Zeng, Yuling Shi, Xiaodong Gu, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Environment-Free: Per-repository Docker 환경이나 복잡한 의존성 설치 없이, 단일 베이스 이미지 내에서 에이전트를 구동하는 설정을 의미합니다.
Agentic Verifier: 고정된 텍스트 기반 판단이 아닌, 서브 에이전트(Sub-agent)를 파견하여 저장소(Repository)를 탐색하고 증거(Evidence)를 수집하여 코드 패치의 정확성을 평가하는 검증기입니다.
SWE-bench: 소프트웨어 엔지니어링 에이전트의 실질적인 해결 능력(Resolve Rate)을 평가하는 표준화된 벤치마크 데이터셋입니다.
RFT (Rejection-sampling Fine-tuning): 에이전트가 생성한 다수의 rollout 중 검증기를 통해 높은 품질의 trajectories만을 선별하여 SFT에 사용하는 학습 기법입니다.
GRPO (Group Relative Policy Optimization): 에이전트 학습 시, 롤아웃 그룹 내에서 정규화된 보상을 사용하여 정책을 최적화하는 효율적인 강화학습 알고리즘입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 실행 기반(Execution-based) 프로그램 검증기가 가진 과도한 엔지니어링 오버헤드와 비확장성 문제를 해결하기 위해 Dockerless를 제안합니다. 현재의 표준 방식은 저장소마다 개별 Docker 환경을 구축하고 테스트를 실행해야 하므로, 복잡한 엔터프라이즈 코드나 legacy 코드베이스에서는 적용이 매우 어렵습니다 [Figure 1]. 기존의 환경 독립적인(Environment-free) 검증기들은 저장소에 대한 깊은 탐색 없이 표면적인 정보에만 의존하여 성능이 저조하다는 한계가 있습니다. 저자들은 환경 의존성을 완전히 제거하면서도, 에이전트가 직접 저장소를 탐색하여 코드 패치를 심층적으로 검증할 수 있는 새로운 접근 방식을 정의하고자 합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Dockerless라는 환경 독립적 에이전트 기반 검증 프레임워크를 제안합니다. 이 모델은 주어진 issue와 패치에 대해 검증 질문(Verification Questions)을 생성하고, 서브 에이전트들이 이를 바탕으로 저장소를 탐색하여 수집한 증거를 종합해 최종적인 정확성 점수를 도출합니다 [Figure 2]. 학습 과정에서는 실행 라벨(Ground-truth)을 기반으로 rejection-sampling을 수행하여 모델이 체계적인 추론을 거쳐 판단하도록 훈련됩니다 [Figure 3]. Dockerless를 활용한 환경 독립적 포스트 트레이닝 파이프라인은 SFT 데이터 필터링과 RL 보상 계산을 모두 자동화하며, 이는 환경 의존적인 기존 방식과 대등한 성능을 달성합니다 [Figure 4]. 주요 실험 결과, Dockerless는 기존 최강의 오픈 소스 검증기 대비 14.3 AUC 포인트 높은 성능을 기록했습니다. 또한, Dockerless 기반으로 학습된 모델은 SWE-bench Verified, Multilingual, Pro 벤치마크에서 베이스라인 대비 각각 2.4, 8.7, 2.9 포인트 향상된 resolve rate를 달성하였습니다 [Table 1]. 이는 기존의 실행 기반 보상 학습과 비교해도 거의 동등한(comparable) 수치로, 환경 독립적인 포스트 트레이닝의 실용성을 입증합니다.

4. Conclusion & Impact (결론 및 시사점)

본 논문은 실행 환경 의존성을 완전히 탈피한 Dockerless 검증 프레임워크를 통해 코딩 에이전트의 학습 효율성을 극대화하였습니다. 이 연구는 저장소별 환경 구축 없이도 고품질의 SFT와 RL 학습을 가능하게 함으로써, 실제 현장의 다양한 코드베이스로 에이전트 성능을 확장할 수 있는 토대를 마련했습니다. 코드 정확성 판단에 에이전트의 능동적인 탐색을 도입한 방식은 향후 보상 모델링(Reward Modeling)의 새로운 표준이 될 것으로 기대됩니다.

Part 2: 중요 Figure 정보

Figure 1: 기존 검증기와 Dockerless 비교

Figure 1 — 기존 검증기와 Dockerless 비교

Figure 2: Dockerless 전체 아키텍처

Figure 2 — Dockerless 전체 아키텍처

Figure 4: 환경 독립적 학습 파이프라인

Figure 4 — 환경 독립적 학습 파이프라인

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] DataEvolver: Self-Evolving Multi-Agent Data Construction for Text-Rich Image Generation
현재글 : [논문리뷰] Dockerless: Environment-Free Program Verifier for Coding Agents
다음글 [논문리뷰] Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks