[논문리뷰] Hybrid Policy Distillation for LLMs본 연구는 LLM 압축 과정에서 발생하는 divergence direction, optimization strategy, data regime 간의 복잡한 상호작용 문제를 해결하고자 합니다.#Review#Knowledge Distillation#Large Language Models#Forward-Reverse KL#Policy Distillation#Logit-level Reweighting#On-policy Sampling2026년 4월 23일댓글 수 로딩 중