#DAgger

2개의 포스트

[논문리뷰] Reinforcement Learning from Rich Feedback with Distributional DAgger

본 연구는 기존의 RLVR 패러다임이 가진 극심한 희소 보상 문제와 그에 따른 부적절한 신용 할당 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Rich Feedback #Self-Distillation #DAgger #Policy Optimization #Credit Assignment

2026년 6월 7일

[논문리뷰] Revisiting DAgger in the Era of LLM-Agents

본 논문은 장기 상호작용을 수행하는 LLM 에이전트의 사후 학습(Post-training) 단계에서 발생하는 고질적인 분포 불일치 문제를 해결하고자 합니다.

#Review #LLM-Agents #DAgger #Covariate Shift #Multi-Turn Interaction #Post-Training #Imitation Learning

2026년 5월 13일