[논문리뷰] Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation본 논문은 기존의 Selective OPD 기법들이 단순히 토큰의 불확실성(Entropy)이나 교사-학생 간의 불일치(Divergence)만을 토큰 선택 기준으로 삼는 한계를 해결하고자 합니다.#Review#On-policy Distillation#Knowledge Distillation#Token Teachability#Selective OPD#Teacher-Student Compatibility2026년 5월 31일댓글 수 로딩 중