[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models본 논문은 LLM의 강화 학습 미세 조정(RFT) 과정에서 발생하는 엔트로피 동학에 대한 이론적인 이해를 확립하고, 탐색-활용(exploration-exploitation) 균형을 최적화하는 실용적인 전략을 개발하는 것을 목표로 합니다.#Review#Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics#Exploration-Exploitation#Policy Optimization#GRPO#Entropy Control#Discriminator Score2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Quantile Advantage Estimation for Entropy-Safe Reasoning대규모 언어 모델(LLMs)의 추론 능력을 강화하는 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 발생하는 엔트로피 붕괴(entropy collapse) 및 엔트로피 폭발(entropy explosion) 문제를 해결하고, 안정적인 학습을 통해 성능을 지속적으로 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Entropy Control#Advantage Estimation#Quantile Baseline#Exploration-Exploitation#RLVR2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#PPO#Entropy Control#Gradient Clipping#Exploration-Exploitation2025년 9월 26일댓글 수 로딩 중