[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

2026년 4월 19일수정: 2026년 4월 19일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Xiaofan Li, Ming Yang, Zhiyuan Ma, Shichao Ma, Jintao Du, Yu Cheng, Weiqiang Wang, Zhizhong Zhang, Xin Tan, Yanyun Qu, Lizhuang Ma, Yuan Xie

1. Key Terms & Definitions (핵심 용어 및 정의)

RLVR (Reinforcement Learning with Verifiable Rewards): 모델이 생성한 응답에 대해 수학적 검증이 가능한 보상을 기반으로 학습을 수행하는 RL 패러다임입니다.
EETO (Exploration-Exploitation Trade-Off): 강화학습 과정에서 성능 향상을 위한 탐색(Exploration)과 수렴을 위한 활용(Exploitation) 간의 균형을 맞추는 핵심 과제입니다.
PPL (Perplexity): 언어 모델이 생성한 텍스트의 불확실성을 측정하는 지표로, 논문에서는 탐색(높은 PPL)과 활용(낮은 PPL)의 경향성을 판단하는 핵심 신호로 활용됩니다.
PSD (Perplexity Space Disentangling): PPL과 정답 여부를 결합하여 전체 샘플 공간을 탐색 및 활용 공간으로 세밀하게 분할하는 방법론입니다.
BRR (Bidirectional Reward Reallocation): 보상 분포의 원래 의미를 해치지 않으면서 PPL 기반의 탐색 및 활용을 유도하기 위해 고안된 보상 재할당 메커니즘입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다. 기존 방법론들은 대부분 거친(Coarse-grained) 방식으로 탐색과 활용을 유도하여, 초기 학습 단계에서 대다수의 샘플이 Hard group에 속할 때 적절한 그라디언트를 얻지 못하는 한계를 보입니다 [Figure 1]. 또한, 단순히 PPL을 보상에 직접 반영할 경우 원본 검증 보상의 의미가 왜곡되어 학습의 안정성과 성능이 저하되는 문제가 발생합니다 [Figure 1]. 이를 극복하기 위해 본 논문은 샘플을 정밀하게 분류하고 안정적인 보상을 재할당하는 메커니즘을 제안합니다.

Figure 1: 학습 중 샘플 분포와 PPL 경향성

Figure 1 — 학습 중 샘플 분포와 PPL 경향성

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Perplexity Space Disentangling(PSD)와 Bidirectional Reward Reallocation(BRR)을 결합한 DiPO(Disentangled Perplexity Policy Optimization)를 제안합니다 [Figure 2]. PSD는 PPL과 검증 보상(Verification Reward)의 상관관계를 통계적으로 분석하여 최적의 임계값 $\tau^*$를 도출하고, 이를 통해 샘플을 4개의 세분화된 구간으로 분할합니다. 이어지는 BRR은 Hard group에는 보상을 높여 탐색을 유도하고, Easy group에는 페널티를 부여하여 활용을 유도하되, 이 재할당된 보상 $\mathcal{R}_r$과 기존 보상 $\mathcal{R}$이 직교하도록 하여 학습의 안정성을 극대화합니다 [Figure 2]. 주요 실험 결과, DiPO는 수학적 추론 및 함수 호출(Function Calling) 태스크에서 기존 Baseline 대비 일관된 성능 우위를 점했습니다. 수학적 추론 태스크에서 Qwen3-8B-Base 모델 기준 DiPO는 평균 점수 54.79%를 달성하여 비교 대상 중 최고 성능을 기록했습니다 [Table 1]. 또한 함수 호출 태스크에서도 ToolRL+DiPO는 Multi-Turn Acc에서 타 방법론 대비 4.75%p의 유의미한 성능 향상을 보였습니다 [Table 2].

Figure 2: DiPO의 전체 아키텍처 및 모듈

Figure 2 — DiPO의 전체 아키텍처 및 모듈

4. Conclusion & Impact (결론 및 시사점)

본 논문은 LLM RL 학습에서 PPL 기반의 정밀한 탐색-활용 균형 전략인 DiPO를 성공적으로 제안하고 검증했습니다. 제안된 PSD와 BRR 기법은 기존 RLVR 방식의 한계였던 극단적인 샘플 학습 저해 문제를 효과적으로 해결하였습니다. 이러한 접근은 모델이 단순히 정답을 맞추는 것을 넘어, 보다 견고하고 다양한 추론 경로를 학습하도록 유도함으로써 LLM의 일반적인 reasoning 능력을 향상시키는 데 기여합니다. 본 연구는 RL 학습 시 보상 설계의 안정성을 유지하면서 추가적인 정보 신호를 활용하는 유망한 방향성을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Can Large Language Models Reinvent Foundational Algorithms?
현재글 : [논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off
다음글 [논문리뷰] EdgeDetect: Importance-Aware Gradient Compression with Homomorphic Aggregation for Federated Intrusion Detection