[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning대규모 언어 모델(LLM)의 강화 학습(RL)에서 PPO의 표준 클리핑 메커니즘 이 저확률 액션의 상향 업데이트 마진을 엄격하게 제한하여 고-이점 꼬리 전략을 억제하고 급격한 엔트로피 붕괴를 유발하는 문제를 해결하는 것이 목표입니다.#Review#LLM Reinforcement Learning#Trust Region#Policy Optimization#Ratio Clipping#f-divergence#Entropy Regularization#Exploration#BandPO2026년 3월 8일댓글 수 로딩 중
[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models (LLMs)#Diversity Collapse#f-divergence#Forward-KL#JS-divergence#Pass@k#Catastrophic Forgetting2025년 9월 12일댓글 수 로딩 중