#Response Length

1개의 포스트

[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning

대규모 언어 모델(LLM) 추론 태스크에서 RLVR (Reinforcement Learning with Verifiable Rewards) 훈련의 효율성을 넘어, 최종 모델의 효과성(정확도)을 개선하는 것을 목표로 합니다.

#Review #LLM Reasoning #RLVR #Dynamic Sampling #Policy Optimization #Response Length #Meta-RL #Overthinking

2025년 10월 6일