#Privileged Guidance

1개의 포스트

[논문리뷰] Self-Distilled Agentic Reinforcement Learning

본 연구는 다중 턴 에이전트 환경에서 기존 OPSD가 겪는 불안정성과 성능 저하 문제를 해결하고자 합니다. 기존 방식은 에이전트가 교사 지원 궤적에서 벗어날 때 토큰 단위의 지도가 신뢰성을 잃고, 교사의 privileged context에 대한 의존이 비대칭적인 결과를 초래하여 학습을 방해한다는 점을 지적합니다 .

#Review #Agentic Reinforcement Learning #On-Policy Self-Distillation #Token-Level Gating #Privileged Guidance #Multi-turn Agents #GRPO

2026년 5월 14일