#Policy Distillation

1개의 포스트

[논문리뷰] Hybrid Policy Distillation for LLMs

본 연구는 LLM 압축 과정에서 발생하는 divergence direction, optimization strategy, data regime 간의 복잡한 상호작용 문제를 해결하고자 합니다.

#Review #Knowledge Distillation #Large Language Models #Forward-Reverse KL #Policy Distillation #Logit-level Reweighting #On-policy Sampling

2026년 4월 23일