[논문리뷰] Retrieval is Cheap, Show Me the Code: Executable Multi-Hop Reasoning for Retrieval-Augmented Generation

2026년 5월 13일수정: 2026년 5월 13일

링크: 논문 PDF로 바로 열기

저자: Jiashuo Sun, Jimeng Shi, Yixuan Xie, Saizhuo Wang, Jash Rajesh Parekh, Pengcheng Jiang, Zhiyi Shi, Jiajun Fan, Qinglong Zheng, Peiran Li, Shaowen Wang, Ge Liu, Jiawei Han

1. Key Terms & Definitions (핵심 용어 및 정의)

PyRAG: 다중 홉(Multi-Hop) 질문에 대해 추론 과정을 자연어 대신 Python 프로그램으로 합성하고 실행하여 문제를 해결하는 프레임워크입니다.
Decompose Agent: 복잡한 질문을 단일 검색 단계로 해결 가능한 여러 개의 원자적(atomic) 하위 질문으로 분해하는 에이전트입니다.
Plan Agent: 하위 질문들을 받아 이를 해결하기 위한 검색 및 답변 호출 순서가 담긴 Python 프로그램을 생성하는 에이전트입니다.
Compiler-Grounded Self-Repair: 실행 중 발생하는 구문 오류나 런타임 예외를 컴파일러의 결정론적 신호로 활용하여 Plan Agent가 코드를 스스로 수정하도록 유도하는 메커니즘입니다.
Execution-Driven Adaptive Retrieval: 하위 답변이 불충분할 경우, 특정 단계의 검색 범위(top-k)를 자동으로 확대하여 재실행하는 동적 검색 최적화 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 Retrieval-Augmented Generation (RAG) 시스템이 다중 홉 질문 추론에서 보이는 근본적인 한계를 해결하고자 합니다. 기존 방식들은 추론 과정을 자연어로 처리하여 중간 상태가 암묵적이고, 검색 쿼리가 의도와 달라지는 엔티티 드리프트(Entity Drift) 문제가 발생하며, 오류 탐지 또한 언어 모델 자체의 불안정한 자기 성찰(Self-reflection)에 의존한다는 단점이 있습니다 [Figure 1]. 이러한 구조적 불일치로 인해 추론 궤적의 제어와 검증이 어렵다는 점을 지적하며, 저자들은 다중 홉 QA를 프로그램 합성과 실행 과정으로 재정의할 필요성을 강조합니다.

Figure 1: 기존 RAG와 PyRAG의 구조 비교

Figure 1 — 기존 RAG와 PyRAG의 구조 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 다중 홉 추론을 단계별 계산 과정으로 간주하고, 이를 Python 프로그램으로 변환하여 실행하는 PyRAG 프레임워크를 제안합니다 [Figure 2]. PyRAG는 질문 분해, 계획 수립, 답변 생성의 3단계 에이전트로 구성되며, 실행 환경에서 얻은 결정론적 피드백을 통해 훈련 없이(training-free) 스스로를 수정하거나 검색 범위를 조절합니다. 실험 결과, PyRAG는 PopQA, HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle 등 5개 벤치마크에서 기존 Vanilla RAG 및 Search Agent 대비 압도적인 성능 우위를 보였습니다. 특히 Qwen2.5-7B-Instruct 환경에서 Vanilla RAG 대비 평균 Exact Match (EM) 성능이 +11.8% 향상되었으며, Bamboogle 데이터셋에서는 +25.5%라는 큰 격차를 기록했습니다. 또한, Reinforcement Learning (RL) 기반으로 학습된 PyRAG-RL은 동일한 모델 크기군에서 경쟁 베이스라인을 제치고 가장 높은 평균 성능을 달성하였습니다 [Table 2, Table 3].

Figure 2: PyRAG의 전체 프레임워크

Figure 2 — PyRAG의 전체 프레임워크

4. Conclusion & Impact (결론 및 시사점)

본 논문은 다중 홉 추론 과정을 자연어 추론의 영역에서 실행 가능한 Python 프로그램으로 전환함으로써, 추론 과정의 투명성과 제어 가능성을 비약적으로 향상시켰습니다. 이러한 접근 방식은 모델의 추론 능력을 극대화하기 위해서는 모델의 역량뿐만 아니라 그에 최적화된 추론 인터페이스(reasoning interface)의 설계가 필수적임을 시사합니다. 향후 PyRAG의 구조는 복잡한 도메인에서의 정확한 정보 처리를 요구하는 산업계의 RAG 시스템 구축 및 학계의 에이전틱(Agentic) 추론 연구에 중요한 기술적 이정표가 될 것으로 전망됩니다.

Figure 3: 구성 요소별 성능 개선 효과

Figure 3 — 구성 요소별 성능 개선 효과

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Results and Retrospective Analysis of the CODS 2025 AssetOpsBench Challenge
현재글 : [논문리뷰] Retrieval is Cheap, Show Me the Code: Executable Multi-Hop Reasoning for Retrieval-Augmented Generation
다음글 [논문리뷰] Revisiting DAgger in the Era of LLM-Agents