#Optimizer Dynamics

1개의 포스트

[논문리뷰] Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

본 연구는 OPD가 일반적인 Supervised Fine-tuning(SFT)과 달리 어떤 기하학적 특성을 가지며, 왜 RLVR(Reinforcement Learning from Verifier-derived Rewards)과 유사한 sparse한 업데이트 양상을 보이는지 규명합니다.

#Review #On-policy Distillation #Parameter Sparsity #Model Geometry #Subnetwork Masking #LLM Post-training #Optimizer Dynamics

2026년 6월 14일