[논문리뷰] A Survey of On-Policy Distillation for Large Language ModelsMao Zheng이 arXiv에 게시한 'A Survey of On-Policy Distillation for Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#On-Policy Distillation#Large Language Models#Knowledge Distillation#Exposure Bias#f-Divergence#Sequence-Level Learning#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중