#EffOPD

1개의 포스트

[논문리뷰] Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation

본 논문은 대규모 언어 모델(LLM)의 post-training에서 OPD가 RL보다 높은 효율성을 보이는 근본적인 파라미터 업데이트 메커니즘을 규명하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Parameter Dynamics #Training Efficiency #EffOPD #Subspace Evolution

2026년 5월 17일