#Length-aware Weighting

1개의 포스트

[논문리뷰] Mitigating Overthinking through Reasoning Shaping

본 논문은 Reinforcement Learning from Verifier Reward (RLVR)로 학습된 대규모 추론 모델(LRMs) 의 '과잉 사고(overthinking)' 문제를 해결하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#RLVR #Overthinking Mitigation #Reasoning Shaping #Segment-level Penalization #Computational Efficiency #Training Stability #Length-aware Weighting

2025년 10월 13일