[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.#Review#Reinforcement Learning#LLMs#Gradient Variance#Loss Aggregation#Unbiased Estimator#RLVR#Policy Gradient#Normalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#LLM Reasoning#Policy Optimization#Normalization#Clipping#Loss Aggregation#Overlong Filtering2025년 8월 12일댓글 수 로딩 중