[논문리뷰] Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback

2026년 6월 7일수정: 2026년 6월 7일

링크: 논문 PDF로 바로 열기

저자: Md Zarif Ul Alam, Alireza Salemi, Hamed Zamani

1. Key Terms & Definitions

Agentic Search: LLM이 여러 차례의 추론(reasoning)과 검색(retrieval) 단계를 반복하며 복잡한 질의를 해결하는 시스템을 의미합니다.
Critic-R-Zero: 별도의 학습 과정 없이, 추론 단계(inference-time)에서 Critic Model을 활용해 검색 결과를 평가하고 필요 시 질의를 재구성하는 추론 기반 확장 기법입니다.
Critic-Embed: Critic-R-Zero에서 수집된 질의-문서 Trajectory를 활용하여, 명시적인 수동 주석(human-annotated gold passages) 없이 Contrastive Learning으로 Retriever를 미세 조정(fine-tuning)하는 방식입니다.
Introspective Feedback: 에이전트가 검색된 문서를 소비한 직후 생성하는 추론 Trace를 지칭하며, 검색 결과의 적절성을 평가하는 핵심 신호로 사용됩니다.

2. Motivation & Problem Statement

본 논문은 Agentic Search 환경에서 기존 Retriever의 경직성이 전체 시스템 성능의 병목 현상(bottleneck)을 유발한다는 점을 해결하고자 합니다 [Figure 1]. 기존 연구들은 주로 Reasoning Agent만을 최적화하거나, Retriever를 고정된 블랙박스로 간주하는 한계를 보입니다. 특히, 실제 운영 환경에서는 수동 주석이 필요한 골드 데이터셋을 얻기 어렵고, Reasoning 모델을 재학습하는 비용이 크다는 문제가 있습니다. 저자들은 이러한 한계를 극복하기 위해 에이전트의 내부적인 추론 신호를 활용하는 새로운 피드백 루프 프레임워크가 필요하다고 주장합니다.

3. Method & Key Results

저자들은 에이전트의 검색 만족도를 실시간으로 평가하는 Critic-R 프레임워크를 제안합니다 [Figure 1]. 우선, Critic-R-Zero를 통해 에이전트가 검색된 문서를 충분히 활용할 수 없는 경우 자동으로 질의를 재구성하여 검색 성공률을 높입니다. 이 과정에서 수집된 성공/실패 Trajectory를 바탕으로 Critic-Embed를 훈련시켜, Retriever 자체가 에이전트의 의도에 부합하도록 최적화합니다. 마지막으로, 두 기법을 결합하여 복잡한 다중 홉(multi-hop) 질의에 대한 정확도를 극대화합니다. 실험 결과, Critic-R-Zero는 검색 실패를 효과적으로 보완하여 12.4%의 Relative Improvement를 달성하였습니다. 또한 Critic-Embed는 기존 Off-the-shelf 방식 및 공동 학습(co-trained) 베이스라인 대비 최대 7.5%의 Relative Improvement를 보이며 성능 우위를 입증하였습니다. 최종적으로 통합 모델인 Critic-R을 사용했을 때 총 10.9%의 성능 향상을 기록하였습니다 [Table 2].

4. Conclusion & Impact

본 연구는 Agentic Search에서 Retriever와 Reasoning Agent 간의 불투명한 연결 고리를 Critic Model을 통해 투명한 피드백 루프로 전환함으로써 성능 향상을 이끌어냈습니다. 특히, 추론 단계에서의 확장성과 학습 단계에서의 자동화된 지도 학습(automatic supervision)을 동시에 달성했다는 점에서 학술적 의의가 큽니다. 이 접근 방식은 대규모 재학습 없이도 기존 에이전트 기반 시스템의 검색 품질을 유연하게 개선할 수 있어, 향후 다양한 지식 집약적 태스크에 폭넓게 활용될 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation
현재글 : [논문리뷰] Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback
다음글 [논문리뷰] Direct 3D-Aware Object Insertion via Decomposed Visual Proxies