[논문리뷰] When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models본 연구는 Multi-turn Reasoning 환경에서 모델의 CoT가 실제 최종 답변의 정확도를 보장하지 않으며, 오히려 논리적 모순을 유발할 수 있다는 점을 문제로 제기합니다.#Review#Multi-turn Reasoning#Chain of Thought#Failure Modes#Faithfulness#LLM Evaluation2026년 6월 9일댓글 수 로딩 중
[논문리뷰] Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models본 논문은 LRM이 복잡한 문제 해결 과정에서 정답을 찾은 후에도 반복적인 검증이나 재구성을 수행하며 자원을 낭비하는 Overthinking 문제를 해결하고자 합니다 .#Review#Large Reasoning Models#Early Exit#Chain of Thought#Semantic Redundancy#Inference Efficiency#Answer Verification2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics본 논문은 LRM에서 생성되는 Chain of Thought(CoT)가 모델의 최종 출력과 항상 일치하지 않는다는 'Unfaithfulness' 문제를 해결하고자 합니다 .#Review#Large Reasoning Models#Chain of Thought#Probe Trajectories#Representation Engineering#AI Safety#Max-pooling#Interpretability2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?본 논문은 대규모 추론 모델(LRMs)이 긴 Chain of Thought (CoT) 를 통해 복잡한 추론 작업을 수행할 때 발생하는 상당한 중복과 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#Large Reasoning Models#Chain of Thought#Efficient Inference#Self-Aware Sampling#Reinforcement Learning#Reasoning Termination#Mathematical Benchmarks2026년 2월 22일댓글 수 로딩 중
[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation본 연구는 텍스트-이미지(T2I) 생성 시 다중 속성 및 모호한 프롬프트 처리 능력의 한계 를 극복하고자 합니다.#Review#Text-to-Image Generation#Reinforcement Learning#Chain of Thought#Multimodal LLMs#Stage-Aware Rewards#Semantic Reasoning#Generative AI2025년 8월 26일댓글 수 로딩 중
[논문리뷰] GCPO: When Contrast Fails, Go Gold본 논문은 기존 강화 학습 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 모델의 추론 한계에 갇혀 샘플 활용 효율성이 떨어지는 문제점을 해결하고자 합니다.#Review#Reinforcement Learning#LLMs Reasoning#Policy Optimization#Contrastive Learning#Chain of Thought#Reference Answers#Math Reasoning#Gold-Standard Answer2025년 10월 10일댓글 수 로딩 중