본문으로 건너뛰기

[논문리뷰] Trajectory-Refined Distillation

링크: 논문 PDF로 바로 열기

메타데이터

저자: Li Jiang, Haoran Xu, Yichuan Ding, Amy Zhang


1. Key Terms & Definitions (핵심 용어 및 정의)

  • On-policy Distillation (OPD): 학생 모델이 생성한 실시간 Rollout을 바탕으로, 더 뛰어난 성능의 교사 모델로부터 Per-token KL divergence를 통해 학습하는 후행 학습 기법입니다.
  • Prefix Failure: 학생 모델이 생성한 경로가 중간에 오답으로 흐를 경우, 교사 모델이 이 오답을 교정하는 대신 문맥에 맞춰 오답을 반복하거나 파편화된 Gradient를 생성하여 학습 효율이 떨어지는 현상입니다.
  • Trajectory-Refined Distillation (TRD): 학생의 실패한 Rollout을 교사 모델이 올바른 방향으로 수정(Refinement)한 뒤, 이 정제된 궤적(Trajectory)을 학습 데이터로 사용하여 Prefix Failure를 근본적으로 차단하는 방법론입니다.
  • On-policy Self-distillation (OPSD): 별도의 교사 모델 없이, 같은 모델이 Privileged Information(정답 등)을 조건으로 입력받아 자기 자신을 가르치는 OPSD의 변형된 학습 구조입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대 LLM의 후행 학습에서 널리 사용되는 OPD가 구조적으로 직면한 Prefix Failure 문제를 해결하고자 합니다. 기존 연구들은 토큰 단위의 손실 함수 수정이나 특정 토큰의 가중치 조정을 통해 이 문제를 해결하려 했으나, 이는 실패한 궤적의 근본 원인을 수정하지 못하는 한계가 있었습니다 [Figure 2]. Prefix Failure가 발생하면 교사 모델의 분포가 실패한 접두사 유지와 정답으로의 전환이라는 두 모드로 분리되어 학습 안정성을 저해합니다. 저자들은 이러한 토큰 레벨의 개입이 아닌, 궤적 자체를 교정하는 새로운 프레임워크의 필요성을 제시합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 연구에서 제안하는 TRD는 학생 모델이 생성한 원본 Rollout $y_o$를 교사 모델(혹은 Privileged context가 결합된 모델)을 통해 더 높은 검증 통과 확률을 가진 정제된 궤적 $y_r$로 변환한 뒤, 이를 통해 지식을 증류합니다 [Figure 1]. 이 과정에서 모델은 단순히 정답을 외우는 것이 아니라, 교사 모델의 가이드를 통해 보다 다양한 타당한 유도 과정을 학습합니다. 실험 결과, TRDQwen3 모델 시리즈를 포함한 다양한 벤치마크에서 기존 OPDOPSD 기법들을 유의미하게 압도하였습니다. 특히 가장 어려운 수학 벤치마크인 AMOBench에서 Qwen3-8B 기준 OPSD 설정 시 약 50%의 상대적인 Pass@16 성능 향상을 달성하였습니다 [Figure 1]. 또한, 학습 궤적 분석을 통해 TRD가 토큰 분포의 mode collapse를 방지하고 더 효율적인 추론 경로를 탐색함을 입증하였습니다 [Figure 3].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 LLM의 On-policy 학습에서 나타나는 Prefix Failure의 메커니즘을 이론적으로 규명하고, 이를 효과적으로 해결하는 TRD를 제안하였습니다. 본 연구는 후행 학습(Post-training)의 핵심인 증류 과정에서 데이터의 질을 높이는 것이 얼마나 중요한지 시사합니다. 제안된 방법론은 학계와 산업계 전반에서 활용되는 OPDOPSD 파이프라인에 즉각적으로 적용 가능하며, 특히 복잡한 추론 모델의 학습 효율성을 극대화하는 데 기여할 것으로 기대됩니다.


Part 2: 중요 Figure 정보

Figure 1: TRD 아키텍처 및 성능 비교

Figure 1 — TRD 아키텍처 및 성능 비교

Figure 2: Prefix Failure 시 분포 혼합

Figure 2 — Prefix Failure 시 분포 혼합

Figure 3: Prefix Failure 실험적 검증

Figure 3 — Prefix Failure 실험적 검증

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글