[논문리뷰] Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation본 논문은 기존 OPD가 가진 불균일한 학습 가치 문제를 해결하기 위해 최적화 Granularity를 재설계하고자 합니다. 기존 연구들은 단순히 전체 trajectory를 사용하거나, 개별 토큰을 선별하는 Hard selection 방식에 의존하여 정보 손실과 최적화의 불안정성을 초래했습니다 .#Review#On-Policy Distillation#Knowledge Distillation#Optimization Granularity#Trajectory Filtering#Token Reweighting#Large Language Models2026년 6월 3일댓글 수 로딩 중