[논문리뷰] Rectifying LLM Thought from Lens of Optimization본 논문은 Long Chain-of-Thought (CoT) LLM이 흔히 보이는 과도한 추론 및 불필요하게 긴 추론 사슬과 같은 비최적 추론 행동 을 해결하여, 성능 저하 및 높은 계산 비용 문제를 개선하는 것을 목표로 합니다. CoT를 최적화 과정으로 재개념화하고 이를 효과적으로 교정하고자 합니다.#Review#LLM Reasoning#Chain-of-Thought#RLVR#Optimization Framework#Process-level Reward#Gradient Descent#Reasoning Efficiency#Suboptimal Reasoning2025년 12월 1일댓글 수 로딩 중