[논문리뷰] Self-Distilled Agentic Reinforcement Learning본 연구는 다중 턴 에이전트 환경에서 기존 OPSD가 겪는 불안정성과 성능 저하 문제를 해결하고자 합니다. 기존 방식은 에이전트가 교사 지원 궤적에서 벗어날 때 토큰 단위의 지도가 신뢰성을 잃고, 교사의 privileged context에 대한 의존이 비대칭적인 결과를 초래하여 학습을 방해한다는 점을 지적합니다 .#Review#Agentic Reinforcement Learning#On-Policy Self-Distillation#Token-Level Gating#Privileged Guidance#Multi-turn Agents#GRPO2026년 5월 14일댓글 수 로딩 중