[논문리뷰] ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning본 논문은 LRMs가 추론 과정에서 '오버씽킹(overthinking)' 현상으로 인해 불필요하게 긴 CoTs를 생성하여 비효율적인 계산 자원을 소모하는 문제를 해결하고자 합니다.#Review#Large Reasoning Models#Reinforcement Learning#Chain-of-Thoughts#Preference Learning#Reasoning Efficiency#Redundancy Mitigation2026년 6월 3일댓글 수 로딩 중
[논문리뷰] Rectifying LLM Thought from Lens of Optimization본 논문은 Long Chain-of-Thought (CoT) LLM이 흔히 보이는 과도한 추론 및 불필요하게 긴 추론 사슬과 같은 비최적 추론 행동 을 해결하여, 성능 저하 및 높은 계산 비용 문제를 개선하는 것을 목표로 합니다. CoT를 최적화 과정으로 재개념화하고 이를 효과적으로 교정하고자 합니다.#Review#LLM Reasoning#Chain-of-Thought#RLVR#Optimization Framework#Process-level Reward#Gradient Descent#Reasoning Efficiency#Suboptimal Reasoning2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.#Review#Curriculum Learning#Reinforcement Learning#Large Language Models#Reasoning Efficiency#Token Budget Control#Group Relative Policy Optimization#Chain-of-Thought2025년 8월 13일댓글 수 로딩 중
[논문리뷰] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning본 논문은 추론 언어 모델(LLM)이 불필요하게 긴 출력을 생성하는 문제를 해결하고, 토큰당 인텔리전스(정확도 대비 응답 길이)를 극대화하는 것을 목표로 합니다. 특히, 길이 패널티로 인한 정확도 저하가 패널티 설계 자체보다는 RL 최적화 기법 의 미흡함에서 비롯됨을 재조명하여 이를 개선하고자 합니다.#Review#Reinforcement Learning#Length Penalty#Reasoning Efficiency#Large Language Models#RL Optimization#Accuracy-Efficiency Trade-off#Chain-of-Thought2025년 10월 20일댓글 수 로딩 중