[논문리뷰] SIM-CoT: Supervised Implicit Chain-of-ThoughtImplicit Chain-of-Thought (CoT) 모델은 토큰 효율성에도 불구하고, 명시적 CoT 대비 지속적인 성능 격차와 핵심적인 '잠재 불안정성(latent instability)' 문제에 직면해 있습니다.#Review#Implicit Reasoning#Chain-of-Thought#LLM#Latent Space#Supervised Learning#Model Stability#Interpretability2025년 9월 25일댓글 수 로딩 중
[논문리뷰] CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning본 논문은 LLM의 추론 능력 향상을 목표로, 기존 SFT(Supervised Fine-Tuning) 방식의 제한된 일반화 능력과 RL(Reinforcement Learning) 기반 방식의 불안정한 추론 경로 샘플링 및 주석된 CoT(Chain-of-Thought) 활용 부족 이라는 두 가지 주요 한계를 해결하고자 합니다.#Review#LLM Reasoning#Contrastive Learning#Reinforcement Learning#Fine-tuning#Chain-of-Thought (CoT)#Annotated Data#Model Stability2025년 8월 25일댓글 수 로딩 중