[논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

2026년 4월 9일수정: 2026년 4월 9일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Chuzhan Hao, Wenfeng Feng, Guochao Jiang, Guofeng Quan, Guohua Liu, Yuewei Zhang

1. Key Terms & Definitions (핵심 용어 및 정의)

HiExp : 본 논문에서 제안하는 Hierarchical Experience 프레임워크로, 에이전트의 내부 추론 궤적에서 추출한 경험을 계층적으로 구조화하여 학습에 활용하는 방법론입니다.
HEK (Hierarchical Experience Knowledge) : 에이전트가 탐색 과정에서 생성한 추론 궤적을 Contrastive Distillation과 Clustering을 통해 고도로 추상화한 경험 지식 베이스입니다.
GRPO (Group Relative Policy Optimization) : Critic-free 강화학습 알고리즘으로, 본 논문에서 제안한 HiExp를 적용하여 에이전트의 추론 경로를 최적화하는 기본 모델로 사용됩니다.
Contrastive Distillation : 성공적인 추론 경로와 실패한 경로를 대비(Contrast)시켜 결정적인 성공 요인과 실패 요인을 추출하는 HiExp의 핵심 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 RL 기반 Search Agent가 겪는 스토캐스틱 탐색(Stochastic Exploration)의 비효율성과 훈련 불안정성 문제를 해결하고자 합니다. 대규모 언어 모델(LLM) 기반 에이전트는 복잡한 추론 태스크를 수행할 때 외부 검색 엔진을 활용하지만, 기존 RL 방식은 무작위 탐색과 보상 신호의 결핍으로 인해 최적의 추론 경로를 찾는 데 큰 어려움을 겪습니다 [Figure 1]. 이러한 한계는 특히 소형 언어 모델(SLM)을 활용한 복잡한 다단계 추론 상황에서 더욱 두드러지며, 최종적인 성능 저하와 훈련 과정의 불안정성을 초래합니다. 따라서 본 연구는 탐색 과정을 전략적이고 경험 중심적인 과정으로 전환하는 새로운 방법론을 제안합니다.

Figure 1: 스토캐스틱 탐색과 경험 유도 탐색 비교

Figure 1 — 스토캐스틱 탐색과 경험 유도 탐색 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 Hierarchical Experience Construction과 Experience-Aligned Training으로 구성된 HiExp 프레임워크를 제안합니다 [Figure 2]. HiExp 는 먼저 Contrastive Distillation을 통해 개별 인스턴스의 성공/실패 궤적에서 핵심 지식을 추출한 후, 계층적 클러스터링을 적용하여 이를 전략적 원리로 일반화합니다. 이렇게 구성된 HEK는 RL 학습 과정에서 에이전트의 탐색을 유도하는 가이드로 동적으로 작용하며, 무작위 탐색을 경험 기반의 Heuristic Search로 전환합니다. 실험 결과, HiExp 가 적용된 모델은 다양한 다단계 질문 답변(Multi-hop QA) 벤치마크에서 기존 RL 기반 모델 대비 정량적으로 압도적인 성능 향상을 보였습니다. 구체적으로, Qwen2.5-7B 모델에 HiExp 를 적용했을 때 HotpotQA 및 Musique와 같은 복잡한 벤치마크에서 F1 점수 기준 약 5.5~9.7% 이상의 향상을 달성하며, 대규모 모델(GPT-4.1 등)과 유사한 성능을 보입니다 [Table 1]. 또한, GRPO 학습 시 HiExp 를 통합하면 인-도메인 F1 점수가 54.2에서 60.6 으로 상승하며 훈련 안정성이 대폭 개선됨을 확인하였습니다 [Table 2].

Figure 2: HiExp 프레임워크 전체 아키텍처

Figure 2 — HiExp 프레임워크 전체 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 논문은 내부 추론 궤적을 자가 학습 가능한 자산으로 전환하는 HiExp 를 통해 에이전트의 탐색 지능과 학습 효율성을 획기적으로 개선하였습니다. 이 연구는 외부 지식에 대한 의존성을 줄이면서도 에이전트의 자율적 논리 체계를 강화할 수 있는 효과적인 방법론을 제시했다는 점에서 학계와 산업계에 큰 시사점을 줍니다. 제안된 프레임워크는 다양한 RL 알고리즘에 즉시 적용 가능한 플러그인(Pluggable) 구조를 띠고 있어, 향후 Agentic Deep Research 시스템의 설계 및 최적화에 중요한 기반 기술이 될 것으로 기대됩니다.

Figure 3: HiExp의 학습 안정성 분석 결과

Figure 3 — HiExp의 학습 안정성 분석 결과

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Automating Database-Native Function Code Synthesis with LLMs
현재글 : [논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search
다음글 [논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?