[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.#Review#Curriculum Learning#Reinforcement Learning#Large Language Models#Reasoning Efficiency#Token Budget Control#Group Relative Policy Optimization#Chain-of-Thought2025년 8월 13일댓글 수 로딩 중