[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL본 논문은 LMM의 표준 post-training 파이프라인인 SFT→RLVR에서 발생하는 distributional drift 문제를 해결하고자 한다. 기존의 SFT는 토큰 수준의 uniform objective에 의존하여 모델이 피상적인 패턴만을 학습하게 만들며, 이는 모델의 본래 성능을 왜곡하는 결과를 초래한다.#Review#Multimodal LLM#Reinforcement Learning#On-Policy Distillation#Distributional Drift#Mixture-of-Experts (MoE)#Adversarial Alignment2026년 5월 5일댓글 수 로딩 중