[논문리뷰] SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating본 논문은 현대의 Deep Research Agents가 성공률만을 극대화하려는 brute-force 학습 전략으로 인해 심각한 연산 비효율성에 직면했다는 문제를 제기합니다.#Review#Web Agents#Training Efficiency#Reward Gating#Adaptive Efficiency Anchoring#Pareto Frontier#Reinforcement Learning#Supervised Fine-Tuning2026년 6월 8일댓글 수 로딩 중