[논문리뷰] ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning본 논문은 LRMs가 추론 과정에서 '오버씽킹(overthinking)' 현상으로 인해 불필요하게 긴 CoTs를 생성하여 비효율적인 계산 자원을 소모하는 문제를 해결하고자 합니다.#Review#Large Reasoning Models#Reinforcement Learning#Chain-of-Thoughts#Preference Learning#Reasoning Efficiency#Redundancy Mitigation2026년 6월 3일댓글 수 로딩 중