#Optimization Granularity

1개의 포스트

[논문리뷰] Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

본 논문은 기존 OPD가 가진 불균일한 학습 가치 문제를 해결하기 위해 최적화 Granularity를 재설계하고자 합니다. 기존 연구들은 단순히 전체 trajectory를 사용하거나, 개별 토큰을 선별하는 Hard selection 방식에 의존하여 정보 손실과 최적화의 불안정성을 초래했습니다 .

#Review #On-Policy Distillation #Knowledge Distillation #Optimization Granularity #Trajectory Filtering #Token Reweighting #Large Language Models

2026년 6월 3일