[논문리뷰] Less is More: Early Stopping Rollout for On-Policy Distillation본 논문은 기존 OPD 방식에서 발생하는 Off-policy Teacher Decay 문제를 해결하기 위해 제안되었습니다 .#Review#On-policy Distillation#Knowledge Distillation#Language Models#Early Stopping Rollout#Off-policy Teacher Decay#Cascading Alignment#Sub-mode Commitment2026년 5월 27일댓글 수 로딩 중