[논문리뷰] Trust-Region Behavior Blending for On-Policy Distillation본 논문은 OPD 초기 단계에서 발생하는 학습 불안정성과 낮은 품질의 데이터 생성 문제를 해결하고자 합니다. 기존 OPD는 학생 모델이 학습 초기에 낮은 품질의 trajectory를 생성하면, 교사 모델의 지도(supervision)가 비효율적인 영역에 집중되는 한계가 있습니다 .#Review#On-policy Distillation#Trust Region#Knowledge Distillation#Language Model Alignment#Annealed Warmup#Behavior Policy2026년 5월 31일댓글 수 로딩 중