[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning대규모 언어 모델(LLM) 추론 태스크에서 RLVR (Reinforcement Learning with Verifiable Rewards) 훈련의 효율성을 넘어, 최종 모델의 효과성(정확도)을 개선하는 것을 목표로 합니다.#Review#LLM Reasoning#RLVR#Dynamic Sampling#Policy Optimization#Response Length#Meta-RL#Overthinking2025년 10월 6일댓글 수 로딩 중