#Distributional Drift

1개의 포스트

[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

본 논문은 LMM의 표준 post-training 파이프라인인 SFT→RLVR에서 발생하는 distributional drift 문제를 해결하고자 한다. 기존의 SFT는 토큰 수준의 uniform objective에 의존하여 모델이 피상적인 패턴만을 학습하게 만들며, 이는 모델의 본래 성능을 왜곡하는 결과를 초래한다.

#Review #Multimodal LLM #Reinforcement Learning #On-Policy Distillation #Distributional Drift #Mixture-of-Experts (MoE)#Adversarial Alignment

2026년 5월 5일