[논문리뷰] Self-Distilled RLVR

2026년 4월 5일수정: 2026년 4월 5일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Naibin Gu, Minghui Chen, Qingyi Si, Chuanyu Qin, Chenxu Yang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

RLVR (Reinforcement Learning with Verifiable Rewards) : 환경으로부터 얻은 이진 결과(성공/실패)만을 신호로 사용하여 모델을 학습시키는 방법론입니다.
OPD (On-Policy Distillation) : 대규모 교사 모델(Teacher)이 생성한 토큰 수준의 로짓(Logits)을 학습 신호로 활용하여 학생 모델(Student)을 학습시키는 방법론입니다.
OPSD (On-Policy Self-Distillation) : 동일한 모델이 교사와 학생 역할을 동시에 수행하며, 교사는 privileged information(예: 정답 경로)을 입력으로 받아 학생을 지도합니다.
RLSD (RLVR with Self-Distillation) : 본 논문에서 제안하는 방식으로, RLVR의 환경 보상을 업데이트 방향으로, Self-Distillation의 증거비(Evidence Ratio)를 업데이트 강도 조정용으로 사용하는 통합 프레임워크입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 OPSD 가 훈련 초기에는 성능 향상을 보이나, 곧 정보 누출(Information Leakage)로 인해 성능이 저하되는 원인을 규명하고 이를 해결하고자 합니다. 기존 OPSD 는 교사와 학생 간의 정보 비대칭성으로 인해 분포 매칭(Distribution Matching) 목적 함수가 잘못 설정되어 있으며, 이로 인해 교사의 privileged information이 모델 파라미터에 스며드는 문제가 발생합니다. 이는 Figure 1에서 볼 수 있듯이 학습 초기 정점 이후 지속적인 성능 하락으로 이어집니다 [Figure 1]. 이러한 정보 누출은 정보 비대칭 구조에서 발생하는 irreducible한 상호 정보량(Mutual Information) 격차 때문임을 수학적으로 증명합니다.

Figure 1: 학습 성능 및 수렴 결과

Figure 1 — 학습 성능 및 수렴 결과

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 RLSD 를 제안하여 RLVR의 안정성과 Self-Distillation의 세밀한 토큰 수준의 신호를 결합합니다. RLSD 는 환경 보상을 통해 업데이트 방향을 결정하고, Self-Distillation으로 얻은 증거비를 통해 토큰별 업데이트 크기(Magnitude)만을 조정함으로써, 환경에 고정된 신뢰할 수 있는 방향성을 유지하면서도 미세한 학습을 가능하게 합니다 [Figure 4]. 실험 결과, RLSD 는 Qwen3-VL-8B-Instruct 기반 실험에서 Base LLM 대비 평균 정확도를 4.69% 향상시켰으며, GRPO 와 비교해서도 2.32% 높은 우위를 점하였습니다 [Table 2]. 특히 MathVision 과 같은 고난도 multimodal reasoning 벤치마크에서 각각 52.73%의 정확도를 기록하며 기존 방법론들보다 뛰어난 학습 안정성과 수렴 성능을 입증했습니다.

Figure 4: RLSD 모델 아키텍처

Figure 4 — RLSD 모델 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 논문은 OPSD 의 구조적 결함인 정보 비대칭성과 정보 누출 문제를 이론적으로 밝혀내고, 이를 극복하기 위한 RLSD 프레임워크를 성공적으로 구축하였습니다. 이 연구는 대규모 모델의 post-training에서 privileged information을 안전하고 효과적으로 활용하는 새로운 패러다임을 제시합니다. RLSD 는 추가적인 auxiliary 네트워크 없이도 기존 GRPO 파이프라인에 즉시 적용 가능한 drop-in replacement로서, 학계와 산업계의 LLM 학습 효율성을 크게 개선할 것으로 기대됩니다.

Figure 6: 토큰 수준 신용 할당 예시

Figure 6 — 토큰 수준 신용 할당 예시

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] InCoder-32B-Thinking: Industrial Code World Model for Thinking
현재글 : [논문리뷰] Self-Distilled RLVR
다음글 [논문리뷰] Token Warping Helps MLLMs Look from Nearby Viewpoints