#Adaptive Efficiency Anchoring

1개의 포스트

[논문리뷰] SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating

본 논문은 현대의 Deep Research Agents가 성공률만을 극대화하려는 brute-force 학습 전략으로 인해 심각한 연산 비효율성에 직면했다는 문제를 제기합니다.

#Review #Web Agents #Training Efficiency #Reward Gating #Adaptive Efficiency Anchoring #Pareto Frontier #Reinforcement Learning #Supervised Fine-Tuning

2026년 6월 8일