#Suboptimal Reasoning

1개의 포스트

[논문리뷰] Rectifying LLM Thought from Lens of Optimization

본 논문은 Long Chain-of-Thought (CoT) LLM이 흔히 보이는 과도한 추론 및 불필요하게 긴 추론 사슬과 같은 비최적 추론 행동 을 해결하여, 성능 저하 및 높은 계산 비용 문제를 개선하는 것을 목표로 합니다. CoT를 최적화 과정으로 재개념화하고 이를 효과적으로 교정하고자 합니다.

#Review #LLM Reasoning #Chain-of-Thought #RLVR #Optimization Framework #Process-level Reward #Gradient Descent #Reasoning Efficiency #Suboptimal Reasoning

2025년 12월 1일