#Parameter Dynamics

2개의 포스트

[논문리뷰] Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation

본 논문은 대규모 언어 모델(LLM)의 post-training에서 OPD가 RL보다 높은 효율성을 보이는 근본적인 파라미터 업데이트 메커니즘을 규명하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Parameter Dynamics #Training Efficiency #EffOPD #Subspace Evolution

2026년 5월 17일

[논문리뷰] On Predictability of Reinforcement Learning Dynamics for Large Language Models

본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 과정에서 발생하는 파라미터 업데이트 동역학 에 대한 이해 부족을 해결하고자 합니다. RL이 LLM의 추론 능력 향상에 어떻게 기여하는지 명확히 밝히고, 이 파라미터 업데이트가 따르는 일관된 패턴을 식별하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Parameter Dynamics #Rank-1 Dominance #Linear Dynamics #SVD #Model Acceleration #Predictability

2025년 10월 2일