#Exploration-Exploitation Trade-Off

1개의 포스트

[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #Large Language Models #Reinforcement Learning #Exploration-Exploitation Trade-Off #Perplexity #Reward Shaping

2026년 4월 19일