#Ratio Clipping

1개의 포스트

[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

대규모 언어 모델(LLM)의 강화 학습(RL)에서 PPO의 표준 클리핑 메커니즘 이 저확률 액션의 상향 업데이트 마진을 엄격하게 제한하여 고-이점 꼬리 전략을 억제하고 급격한 엔트로피 붕괴를 유발하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Reinforcement Learning #Trust Region #Policy Optimization #Ratio Clipping #f-divergence #Entropy Regularization #Exploration #BandPO

2026년 3월 8일