[논문리뷰] Quantile Advantage Estimation for Entropy-Safe Reasoning대규모 언어 모델(LLMs)의 추론 능력을 강화하는 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 발생하는 엔트로피 붕괴(entropy collapse) 및 엔트로피 폭발(entropy explosion) 문제를 해결하고, 안정적인 학습을 통해 성능을 지속적으로 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Entropy Control#Advantage Estimation#Quantile Baseline#Exploration-Exploitation#RLVR2025년 9월 29일댓글 수 로딩 중