[논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

2026년 4월 6일수정: 2026년 4월 6일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Mao Zheng, Mingyang Song, Junfeng Fang, Tianyu Yang, Gengsheng Li, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

RLVR (Reinforcement Learning with Verifiable Rewards) : 모델이 생성한 출력물의 정답 여부를 환경 피드백을 통해 직접 확인할 수 있는 환경에서의 강화학습 기법입니다.
GRPO (Group Relative Policy Optimization) : 환경 피드백 기반의 RLVR에서 리워드 모델(Critic) 없이 그룹 내 보상을 정규화하여 정책을 업데이트하는 효율적인 정책 최적화 기법입니다.
SDPO (Self-Distillation Policy Optimization) : 모델 스스로가 생성한 출력물에 대해 피드백이 포함된 컨텍스트를 제공하여, 토큰 수준의 dense한 logit 분포를 스스로 학습(증류)하게 함으로써 수렴 속도를 높이는 기법입니다.
Sample Routing : 학습 샘플의 상태(정답 여부 및 피드백 가용성)에 따라, 샘플을 GRPO 브랜치 또는 SDPO 브랜치로 분기하여 각 상황에 최적화된 학습 신호를 적용하는 전략입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 GRPO 의 거친 신용 할당(coarse credit assignment) 방식과 SDPO 의 후기 학습 불안정성(late-stage instability) 문제를 동시에 해결하기 위해 제안되었습니다. GRPO 는 전체 문장에 대해 균일한 보상을 적용하여 특정 토큰의 오류를 정밀하게 교정하는 데 한계가 있으며, SDPO 는 초기 학습 성능은 우수하나 학습이 진행될수록 이미 정답인 샘플에 대해서도 불필요한 증류를 수행하여 최적화 모호성을 야기하거나, 증류 신호의 품질이 저하되어 붕괴(collapse)되는 문제가 있습니다 [Figure 1]. 이러한 두 방법론의 상호 보완적 특성을 활용하여 학습 효율성과 안정성을 모두 확보할 새로운 프레임워크가 필요합니다.

Figure 1: SDPO의 학습 불안정성 분석

Figure 1 — SDPO의 학습 불안정성 분석

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 샘플의 학습 상태에 따라 적절한 최적화 방식을 할당하는 SRPO (Sample-Routed Policy Optimization) 를 제안합니다 [Figure 2]. SRPO 는 정답 샘플에 대해서는 GRPO 의 보상 정렬(reward-aligned) 강화를 적용하고, 오류 샘플 중 피드백 정보가 가용한 경우에는 SDPO 의 정밀한 logit 수준 교정을 적용합니다. 또한, 학습 과정에서 증류 신호의 품질 저하를 방지하기 위해 entropy-aware dynamic weighting 기법을 도입하여, 모델의 확신도가 높은(낮은 entropy) 증류 타겟은 강조하고 불확실한 타겟은 억제합니다. 5개 벤치마크 및 2개 모델 스케일에서 평가한 결과, Qwen3-8B 기준으로 GRPO 대비 3.4%, SDPO 대비 6.3% 높은 5개 벤치마크 평균 성능을 달성하였습니다 [Table 1]. 또한, SRPO 는 학습 후반부로 갈수록 per-step compute cost를 최대 17.2% 까지 절감하면서도 적절한 응답 길이를 유지하는 결과를 보였습니다 [Figure 4].

Figure 2: SRPO 프레임워크 개요

Figure 2 — SRPO 프레임워크 개요

Figure 4: 응답 길이 및 계산 비용 분석

Figure 4 — 응답 길이 및 계산 비용 분석

4. Conclusion & Impact (결론 및 시사점)

본 논문은 강화학습과 자기 증류 기법을 Sample Routing 을 통해 통합함으로써 LLM post-training의 성능과 효율성을 극대화할 수 있음을 입증했습니다. 이 연구는 모델의 학습 상태에 따라 동적으로 최적화 방식을 전환하는 새로운 패러다임을 제시하며, 특히 학습 효율성과 long-horizon 안정성을 동시에 추구해야 하는 실무 환경에서 강력한 토대가 될 것입니다. 향후 더 풍부한 외부 피드백 환경으로의 확장을 통해 증류 브랜치의 활용도를 더욱 높일 수 있을 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression
현재글 : [논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing
다음글 [논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning