[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

2026년 5월 5일수정: 2026년 5월 5일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Sudong Wang, Weiquan Huang, Xiaomin Yu, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

PRISM: SFT와 RLVR 사이에 배치되는 중간 정렬 단계인 PRe-alignment via black-box on-policy dIStillation for Multimodal reinforcement learning의 약어.
Distributional Drift: SFT 과정에서 모델이 지도 학습 데이터의 분포를 완벽히 모사하지 못하거나, 기존의 우수한 모델 능력 분포를 상실하는 현상.
On-Policy Distillation (OPD): 정적인 Teacher 모델의 정답을 모방하는 대신, 모델이 스스로 생성한(on-policy) 데이터를 학습하여 노출 편향을 줄이고 더 견고한 정책을 형성하는 기법.
Mixture-of-Experts (MoE) Discriminator: 시각적 인식(Perception)과 논리적 추론(Reasoning)을 담당하는 전문가 모델을 별도로 구성하여, 복합적인 멀티모달 오류에 대해 개별적인 교정 신호를 제공하는 판별기.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LMM의 표준 post-training 파이프라인인 SFT→RLVR에서 발생하는 distributional drift 문제를 해결하고자 한다. 기존의 SFT는 토큰 수준의 uniform objective에 의존하여 모델이 피상적인 패턴만을 학습하게 만들며, 이는 모델의 본래 성능을 왜곡하는 결과를 초래한다. 특히 멀티모달 reasoning에서는 시각적 인식 오류와 논리적 실패가 복합적으로 작용하여 RL 과정에서 오차를 증폭시킨다. 저자들은 SFT 이후 RLVR로 바로 넘어가기 전에, 이러한 불균일한 drift를 교정할 수 있는 명시적인 중간 정렬 단계가 필수적이라고 주장한다 [Figure 1].

Figure 1: PRISM 파이프라인의 전체 구조

Figure 1 — PRISM 파이프라인의 전체 구조

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 PRISM이라는 3단계 파이프라인을 제안한다. 첫 번째 단계인 Cold-Start SFT는 고품질의 113K reasoning 데이터를 포함한 총 1.37M의 샘플로 모델을 초기화한다. 두 번째 단계인 Distribution Alignment에서는 MoE 판별기를 활용한 adversarial OPD를 통해 policy가 supervision 분포와 유사한 응답을 생성하도록 recalibrate한다 [Figure 2]. 마지막 단계에서 최종적으로 outcome-based RLVR을 수행한다.

Figure 2: 분포 정렬 단계의 MoE 판별기 구조

Figure 2 — 분포 정렬 단계의 MoE 판별기 구조

실험 결과, PRISM은 Qwen3-VL-4B 및 8B 모델에서 표준 SFT→RLVR 파이프라인 대비 현저한 성능 향상을 보였다.

Qwen3-VL-4B: 기존 SFT→GRPO 대비 average accuracy가 +4.4점 상승하였다.
Qwen3-VL-8B: 기존 SFT→GRPO 대비 average accuracy가 +6.0점 상승하였다. 또한, PRISM은 GRPO, DAPO, GSPO와 같은 다양한 RL 알고리즘에 걸쳐 일관된 성능 우위를 확인했으며, 더 적은 토큰 사용량으로 높은 정확도를 달성하는 효율성을 입증하였다 [Table 1].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 SFT 단계에서 발생하는 distributional drift가 멀티모달 RL의 병목 현상임을 규명하고, PRISM 프레임워크를 통해 이를 효과적으로 해결하였다. MoE discriminator를 사용한 adversarial 정렬은 멀티모달 모델의 인식과 추론 능력을 분리하여 정교하게 개선하는 새로운 방법론을 제시한다. 이 연구는 앞으로의 LMM post-training 설계에 있어 정렬 단계의 독립적인 중요성을 강조하며, 모델의 reasoning 성능을 한 단계 끌어올리는 중요한 발판을 마련하였다.

Figure 3: 인식/추론 전문가의 학습 역학

Figure 3 — 인식/추론 전문가의 학습 역학

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] A Benchmark for Interactive World Models with a Unified Action Generation Framework
현재글 : [논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
다음글 [논문리뷰] Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation