[논문리뷰] A Survey of On-Policy Distillation for Large Language Models

2026년 4월 1일수정: 2026년 4월 1일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Mingyang Song, Mao Zheng, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

On-Policy Distillation (OPD) : 학생 모델이 스스로 생성한 궤적(trajectory)에 대해 교사 모델의 피드백을 받아 학습하는 방식으로, 고정된 데이터셋을 사용하는 off-policy 방식의 한계를 극복하기 위한 기법입니다.
Exposure Bias : 훈련 시에는 교사 모델의 데이터(ground-truth)를 따르지만, 추론 시에는 학생 모델 자신의 예측에 의존함에 따라 발생하는 분포 불일치 문제로, 생성 과정에서 오차가 누적되는 현상입니다.
f-Divergence : 두 확률 분포 간의 차이를 측정하는 일반화된 척도이며, OPD에서는 교사 모델과 학생 모델의 분포를 정렬하는 다양한 손실 함수(예: Forward KL, Reverse KL, JSD)의 기반이 됩니다.
Self-Distillation : 외부의 교사 모델 없이 모델 자신의 과거 버전, 특정 조건(privileged information) 하의 자기 자신, 혹은 ensembled 모델을 교사로 삼아 스스로의 성능을 개선하는 기법입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다. 기존 방식은 고정된 정적 데이터셋에서 토큰 단위의 정답을 모사하도록 학습되나, 실제 추론 시에는 자기 자신의 예측 결과를 바탕으로 autoregressive하게 생성하므로 미세한 오차가 시퀀스 전반에 걸쳐 누적됩니다. 이러한 누적 오차는 특히 긴 시퀀스 생성이나 복잡한 추론 작업에서 모델 성능의 급격한 저하를 유발합니다. 저자들은 이러한 문제를 극복하기 위해 학생 모델이 자신의 생성 경로를 탐색하고 그에 대해 교사의 피드백을 받는 on-policy 접근법이 필수적임을 강조합니다 [Figure 1].

Figure 1: Forward vs. Reverse KL 분포 모사 비교

Figure 1 — Forward vs. Reverse KL 분포 모사 비교

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 논문은 현대의 다양한 OPD 기법들을 통합하기 위해 f-divergence 기반의 일반화된 수학적 프레임워크를 제안합니다. 저자들은 OPD를 세 가지 직교하는 차원, 즉 피드백 신호(Feedback Signal), 교사 접근성(Teacher Access), 손실 세분성(Loss Granularity)으로 분류하는 독창적인 택소노미(taxonomy)를 구축했습니다 [Figure 2]. 제안된 프레임워크 내에서 GKD , MiniLLM , DistiLLM 등 기존 연구들이 서로 다른 divergence 선택과 샘플링 전략을 통해 동일한 목적 함수를 파라미터화하고 있음을 증명합니다. 실험적으로, Entropy-Aware OPD 와 같은 적응형 기법들은 교사의 불확실성에 따라 Forward/Reverse KL을 동적으로 전환하여 모드 붕괴(mode collapse)와 환각(hallucination)을 동시에 억제하며, OPSDC 는 reasoning compression 분야에서 토큰 수를 41~59% 감소시키면서도 AIME 2024 등에서 우수한 성능을 보임을 확인했습니다. 이처럼 on-policy 증류는 단순한 모델 압축을 넘어, Reward Extrapolation 을 통해 학생 모델이 교사의 성능을 능가하는 구조적 역량 전이 엔진으로 발전하고 있습니다.

Figure 2: OPD 방법론 택소노미 트리

Figure 2 — OPD 방법론 택소노미 트리

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 OPD가 단순한 기술적 변형을 넘어 LLM 증류의 새로운 표준으로 자리 잡고 있음을 종합적으로 분석했습니다. 핵심 결론은 정적인 데이터 모사보다는 모델의 동적인 탐색 과정(rollout)에 대한 학습이 오차 누적을 방지하고 추론 역량을 안정적으로 전이한다는 점입니다. 이 연구는 학계에 OPD의 이론적 토대와 통일된 비교 언어를 제공하며, 산업계에는 실제 대규모 배포 시스템에서 on-policy 학습을 최적화하기 위한 구체적인 방법론적 가이드라인을 제시합니다. 앞으로의 연구는 scaling laws의 정립과 에이전트 환경에서의 다중 단계 증류 등 더 복잡한 추론 구조로 확장될 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] daVinci-LLM:Towards the Science of Pretraining
현재글 : [논문리뷰] A Survey of On-Policy Distillation for Large Language Models
다음글 [논문리뷰] AI Generalisation Gap In Comorbid Sleep Disorder Staging

[논문리뷰] A Survey of On-Policy Distillation for Large Language Models

메타데이터

댓글

관련 포스트

Review 의 다른글