#Chain of Thought

6개의 포스트

[논문리뷰] When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

본 연구는 Multi-turn Reasoning 환경에서 모델의 CoT가 실제 최종 답변의 정확도를 보장하지 않으며, 오히려 논리적 모순을 유발할 수 있다는 점을 문제로 제기합니다.

#Review #Multi-turn Reasoning #Chain of Thought #Failure Modes #Faithfulness #LLM Evaluation

2026년 6월 9일

[논문리뷰] Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

본 논문은 LRM이 복잡한 문제 해결 과정에서 정답을 찾은 후에도 반복적인 검증이나 재구성을 수행하며 자원을 낭비하는 Overthinking 문제를 해결하고자 합니다 .

#Review #Large Reasoning Models #Early Exit #Chain of Thought #Semantic Redundancy #Inference Efficiency #Answer Verification

2026년 5월 18일

[논문리뷰] Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

본 논문은 LRM에서 생성되는 Chain of Thought(CoT)가 모델의 최종 출력과 항상 일치하지 않는다는 'Unfaithfulness' 문제를 해결하고자 합니다 .

#Review #Large Reasoning Models #Chain of Thought #Probe Trajectories #Representation Engineering #AI Safety #Max-pooling #Interpretability

2026년 5월 18일

[논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?

본 논문은 대규모 추론 모델(LRMs)이 긴 Chain of Thought (CoT) 를 통해 복잡한 추론 작업을 수행할 때 발생하는 상당한 중복과 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Large Reasoning Models #Chain of Thought #Efficient Inference #Self-Aware Sampling #Reinforcement Learning #Reasoning Termination #Mathematical Benchmarks

2026년 2월 22일

[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

본 연구는 텍스트-이미지(T2I) 생성 시 다중 속성 및 모호한 프롬프트 처리 능력의 한계 를 극복하고자 합니다.

#Review #Text-to-Image Generation #Reinforcement Learning #Chain of Thought #Multimodal LLMs #Stage-Aware Rewards #Semantic Reasoning #Generative AI

2025년 8월 26일

[논문리뷰] GCPO: When Contrast Fails, Go Gold

본 논문은 기존 강화 학습 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 모델의 추론 한계에 갇혀 샘플 활용 효율성이 떨어지는 문제점을 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs Reasoning #Policy Optimization #Contrastive Learning #Chain of Thought #Reference Answers #Math Reasoning #Gold-Standard Answer

2025년 10월 10일