#Clipping

2개의 포스트

[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Clipping #Policy Entropy #Spurious Rewards #Mathematical Reasoning #RLVR

2025년 12월 18일

[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #LLM Reasoning #Policy Optimization #Normalization #Clipping #Loss Aggregation #Overlong Filtering

2025년 8월 12일