[논문리뷰] Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation본 연구는 OPD가 일반적인 Supervised Fine-tuning(SFT)과 달리 어떤 기하학적 특성을 가지며, 왜 RLVR(Reinforcement Learning from Verifier-derived Rewards)과 유사한 sparse한 업데이트 양상을 보이는지 규명합니다.#Review#On-policy Distillation#Parameter Sparsity#Model Geometry#Subnetwork Masking#LLM Post-training#Optimizer Dynamics2026년 6월 14일댓글 수 로딩 중