[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.#Review#Large Language Models#Reinforcement Learning#Exploration-Exploitation Trade-Off#Perplexity#Reward Shaping2026년 4월 19일댓글 수 로딩 중