[논문리뷰] On the Geometry of On-Policy Distillation본 논문은 OPD가 SFT와 RLVR의 특성을 모두 공유함에도 불구하고, 파라미터 공간에서의 구체적인 학습 동역학(training dynamics)은 제대로 규명되지 않았다는 점을 핵심 문제로 정의합니다.#Review#On-policy Distillation#Parameter-space Geometry#Subspace Locking#SFT#RLVR#Large Language Models2026년 6월 8일댓글 수 로딩 중