#Parameter-space Geometry

1개의 포스트

[논문리뷰] On the Geometry of On-Policy Distillation

본 논문은 OPD가 SFT와 RLVR의 특성을 모두 공유함에도 불구하고, 파라미터 공간에서의 구체적인 학습 동역학(training dynamics)은 제대로 규명되지 않았다는 점을 핵심 문제로 정의합니다.

#Review #On-policy Distillation #Parameter-space Geometry #Subspace Locking #SFT #RLVR #Large Language Models

2026년 6월 8일