[논문리뷰] SG-OPD: Sign-Gated On-Policy Distillation via Sign-Consistency Gating and Phased Teacher Sampling본 연구는 기존의 Off-policy Distillation이 지닌 데이터 고립성 문제와 Teacher-Student 간의 Distribution Mismatch를 해결하는 데 초점을 맞춥니다.#Review#Knowledge Distillation#On-Policy Learning#Sign-Consistency#Phased Teacher Sampling#Large Language Models#Model Alignment2026년 6월 11일댓글 수 로딩 중