#Sequence-level Clipping

1개의 포스트

[논문리뷰] Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 GRPO 및 GSPO 와 같은 주류 알고리즘이 겪는 응답 길이 편향(length bias) 문제를 분석하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards #LLMs #Policy Optimization #Response Length Bias #Sequence-level Clipping #Length-Unbiased Optimization #Multimodal Reasoning

2026년 2월 5일