[논문리뷰] Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

2026년 5월 17일수정: 2026년 5월 17일

링크: 논문 PDF로 바로 열기

저자: Han Li, Jinyu Tian, Rili Feng, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Solvita: 경쟁 프로그래밍 문제를 해결하기 위해 고안된 다중 에이전트 프레임워크로, 4개의 특화된 에이전트(Planner, Solver, Oracle, Hacker)와 훈련 가능한 지식 네트워크를 통해 지속적인 경험 학습을 수행합니다.
Knowledge Network: 각 에이전트와 결합된 그래프 구조의 기억 장치로, 과거의 성공과 실패 경험을 에지 가중치(edge weights) 형태로 저장하여 새로운 문제에 대해 최적의 전략을 라우팅합니다.
Oracle: 코드의 정확성을 보증하기 위해 스스로 테스트 케이스를 생성, 검증 및 인증하는 에이전트입니다.
Hacker: 솔루션의 잠재적 취약점을 찾아내기 위해 공격적인 입력 값을 생성하고, 실패 신호를 전체 시스템으로 전파하여 피드백 루프를 완성하는 에이전트입니다.
Patch-based Repair: 전체 코드를 재생성하는 대신, 오류가 발생한 부분만을 식별하여 SEARCH/REPLACE 기반의 수정 블록을 삽입함으로써 토큰 효율성과 성능을 개선하는 Solver의 전략입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 LLM 기반 경쟁 프로그래밍 에이전트들이 가진 상태 비저장(stateless) 구조의 한계를 해결하고자 합니다. 대다수의 최신 프레임워크는 문제 해결 시마다 처음부터 시작하며, 과거의 디버깅 경험이나 실패 기록을 재사용하지 못하는 고립된 구조를 띱니다 [Figure 2]. 이러한 정적인 파이프라인은 복잡한 알고리즘 문제에서 필요한 반복적 개선과 통찰력 축적을 가로막습니다. 저자들은 인간 프로그래머처럼 경험을 통해 전략을 선택하고 오류를 방지하는 능력을 갖춘 에이전트 시스템의 필요성을 제기합니다.

Figure 2: Solvita의 아키텍처 구성

Figure 2 — Solvita의 아키텍처 구성

3. Method & Key Results (제안 방법론 및 핵심 결과)

Solvita는 Planner, Solver, Oracle, Hacker라는 네 가지 에이전트가 폐쇄 루프 내에서 상호작용하며 강화학습을 통해 각자의 지식 네트워크를 최적화하는 프레임워크입니다 [Figure 2]. Solver는 Contrastive REINFORCE 기법을 사용하여, 지식 네트워크 기반의 솔루션과 Bare LLM 솔루션 간의 결과 차이를 보상으로 삼아 라우팅 가중치를 갱신합니다 [Figure 3]. 이 시스템은 LLM의 파라미터를 수정하지 않는 'frozen' 상태를 유지하면서도, 경험 축적을 통해 정량적 성능을 비약적으로 높입니다. 실험 결과, Solvita는 CodeContests 벤치마크에서 기존 단일 패스(single-pass) 방식 대비 pass@1 정확도를 40.0%에서 82.4%로 거의 2배 향상시켰습니다 [Table 1]. 또한, 실제 Codeforces 대회 환경에서 Legendary Grandmaster 수준의 성능을 입증하며, 기존의 오픈 소스 에이전트 프레임워크를 상회하는 성능을 보였습니다 [Figure 6].

Figure 3: Solver의 3계층 지식 네트워크

Figure 3 — Solver의 3계층 지식 네트워크

Figure 6: Codeforces 레이팅 추이 분석

Figure 6 — Codeforces 레이팅 추이 분석

4. Conclusion & Impact (결론 및 시사점)

본 연구는 LLM의 가중치 수정 없이도 경험 기반의 지속적 학습이 가능함을 보여줌으로써, 복잡한 추론 작업에서 다중 에이전트 프레임워크가 나아갈 방향을 제시합니다. Solvita가 구현한 지식 네트워크의 재사용성과 에이전트 간 피드백 전파는 학계에 대규모 언어 모델의 추론 성능을 극대화하는 새로운 아키텍처적 통찰을 제공합니다. 이는 향후 경쟁 프로그래밍뿐만 아니라 정형 검증(formal verification), 수학적 증명, 시뮬레이션 기반의 과학적 추론 등 다양한 검증 중심의 도메인으로 확장될 잠재력이 큽니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] ReactiveGWM: Steering NPC in Reactive Game World Models
현재글 : [논문리뷰] Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution
다음글 [논문리뷰] Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models