#Normalization

3개의 포스트

[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR

이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.

#Review #Reinforcement Learning #LLMs #Gradient Variance #Loss Aggregation #Unbiased Estimator #RLVR #Policy Gradient #Normalization

2025년 9월 10일

[논문리뷰] Limitations of Normalization in Attention Mechanism

본 연구는 어텐션 메커니즘에서 사용되는 정규화, 특히 소프트맥스(softmax) 의 근본적인 한계를 밝히는 것을 목표로 합니다.

#Review #Attention Mechanism #Normalization #Softmax #Transformer Models #Gradient Sensitivity #Token Separability #Context Length #GPT-2

2025년 8월 26일

[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #LLM Reasoning #Policy Optimization #Normalization #Clipping #Loss Aggregation #Overlong Filtering

2025년 8월 12일