[논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search본 논문은 기존 RL 기반 Search Agent가 겪는 스토캐스틱 탐색(Stochastic Exploration)의 비효율성과 훈련 불안정성 문제를 해결하고자 합니다.#Review#Agentic Search#Reinforcement Learning#Hierarchical Experience#Policy Optimization#Contrastive Distillation#Self-Reflection2026년 4월 9일댓글 수 로딩 중