[논문리뷰] Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation본 논문은 대규모 언어 모델(LLM)의 post-training에서 OPD가 RL보다 높은 효율성을 보이는 근본적인 파라미터 업데이트 메커니즘을 규명하고자 합니다.#Review#On-Policy Distillation#Large Language Models#Parameter Dynamics#Training Efficiency#EffOPD#Subspace Evolution2026년 5월 17일댓글 수 로딩 중