본문으로 건너뛰기

secrett2633's blog

카테고리

Python

PEP (650)

AI/ML

Review (3569)

OpenSource

PR Analysis (761)
vLLM (71)
SGLang (130)
llm-compressor (45)

Python

PEP (650)

AI/ML

Review (3569)

OpenSource

PR Analysis (761)
vLLM (71)
SGLang (130)
llm-compressor (45)

홈
#Loss Aggregation

#Loss Aggregation

2개의 포스트

[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR

Lili Qiu이 arXiv에 게시한 'ΔL Normalization: Rethink Loss Aggregation in RLVR' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #LLMs #Gradient Variance #Loss Aggregation #Unbiased Estimator #RLVR #Policy Gradient #Normalization

2025년 9월 10일댓글 수 로딩 중

[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

Jiaheng Liu이 arXiv에 게시한 'Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #Large Language Models #LLM Reasoning #Policy Optimization #Normalization #Clipping #Loss Aggregation #Overlong Filtering

2025년 8월 12일댓글 수 로딩 중

AI Review Python PEP PR Analysis RSS GitHub

© 2026 secrett2633. All rights reserved.