#Reasoning Models

15개의 포스트

[논문리뷰] DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

본 논문은 LLM의 추론 성능 향상을 위해 외부의 강력한 teacher 모델이나 복잡하게 큐레이션된 학습 데이터에 의존해야 하는 기존 RL 패러다임의 한계를 해결하고자 합니다. 기존 방식들은 학습 데이터의 품질이나 교사의 지식 수준에 따라 성능이 제약되는 structural limitation을 가지고 있습니다.

#Review #Reinforcement Learning #Reasoning Models #Denoising Reasoning #Weak-to-Strong Generalization #Self-correction #Large Language Models

2026년 5월 27일

[논문리뷰] Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

본 연구는 고도의 수학 및 과학 Olympiad 문제에서 금메달 수준의 추론 능력을 갖춘 모델을 만들기 위한 간단하고 통합된 레시피를 제안합니다. 기존의 일반적인 추론 모델들은 수학적 문제 해결에서 단기적인 성과를 내지만, 복잡한 증명 문제에 필요한 엄격한 추론과 검증 능력이 부족하다는 한계가 있습니다.

#Review #Olympiad Reasoning #Reinforcement Learning #Test-time Scaling #Supervised Fine-tuning #Reasoning Models #Proof-search #Reverse-Perplexity Curriculum

2026년 5월 14일

[논문리뷰] Phi-4-reasoning-vision-15B Technical Report

본 논문은 추론 능력, 효율성, 학습 데이터 요구사항의 균형을 맞춘 소형 오픈소스 멀티모달 추론 모델인 Phi-4-reasoning-vision-15B 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Efficient AI #Reasoning Models #Vision-Language Models #Data Curation #Mid-Fusion #High-Resolution Vision #Small Language Models

2026년 3월 4일

[논문리뷰] Free(): Learning to Forget in Malloc-Only Reasoning Models

추론 모델이 과도한 '사고 토큰'을 축적할 때 성능이 저하되는 문제, 즉 기존 LLM이 쓸모없는 정보를 제거하는 메커니즘 없이 컨텍스트를 지속적으로 쌓아가는 'malloc-only' 아키텍처의 근본적인 결함을 해결하고자 합니다.

#Review #Large Language Models #Reasoning Models #Context Management #Memory Pruning #LoRA Adapter #Long-Horizon Reasoning #Self-Forgetting

2026년 2월 11일

[논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

본 논문은 Chain-of-Thought (CoT) 데이터를 활용한 지도 미세 조정(SFT) 단계에서 제한된 고품질 데이터 를 가장 효과적으로 활용하는 방법을 탐구합니다.

#Review #Supervised Fine-tuning (SFT)#Chain-of-Thought (CoT)#Data Repetition #Data Scaling #LLM Training #Generalization #Overfitting #Reasoning Models

2026년 2월 11일

[논문리뷰] Reasoning Models Generate Societies of Thought

본 논문은 대규모 언어 모델(LLM)의 정교한 추론 능력 이면에 있는 메커니즘을 규명하고, 이러한 능력이 단순히 계산량 증가가 아닌, 복잡한 다중 에이전트 상호작용 인 '생각의 사회(society of thought)'를 내재적으로 시뮬레이션함으로써 발현된다는 가설을 제시합니다.

#Review #Reasoning Models #Large Language Models (LLMs)#Multi-Agent Systems #Society of Thought #Mechanistic Interpretability #Reinforcement Learning #Cognitive Diversity #Conversational AI

2026년 1월 18일

[논문리뷰] Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

현재 AI 연구는 '정돈된' 벤치마크에 의존하지만, 실제 환경의 본질적인 노이즈를 반영하지 못해 에이전트 AI 시스템의 실제 성능을 오해하게 만듭니다.

#Review #Robustness #Contextual Distractors #RAG #Reasoning Models #Alignment #Tool Use #NoisyBench #Rationale-Aware Reward #Inverse Scaling

2026년 1월 12일

[논문리뷰] LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

대규모 추론 모델(LLM)이 불필요하게 긴 사고 과정을 생성하여 컴퓨팅 자원을 낭비하고 때로는 정확도를 저해하는 '과잉 사고(overthinking)' 문제를 해결하고자 합니다.

#Review #Early Exit #Confidence Control #Reasoning Models #Conformal Prediction #LLM Optimization #Dynamic Exits #Hidden States #Chain-of-Thought

2025년 12월 9일

[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

본 논문은 대규모 언어 모델(LLM)의 단계별 추론(Chain-of-Thought, CoT) 능력 이 새로운 유형의 데이터 포이즈닝 공격 기회를 제공함과 동시에, 이러한 공격을 최종 답변으로 유도하는 것을 복잡하게 만드는 예상치 못한 견고성을 생성한다는 점을 탐구합니다.

#Review #LLM Security #Data Poisoning #Chain-of-Thought #Reasoning Models #Backdoor Attacks #CoT Unfaithfulness #Emergent Robustness

2025년 9월 12일

[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

본 논문은 지식 집약적 태스크에서 Test-Time Scaling 기법이 모델의 정확도와 환각(hallucination) 감소에 효과적인지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Test-Time Scaling #Reasoning Models #Knowledge-Intensive Tasks #Hallucinations #Factual Accuracy #Chain-of-Thought #Large Language Models

2025년 9월 9일

[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Passage Ranking #Reasoning Models #Large Language Models #Data Synthesis #Reinforcement Learning #Listwise Reranking #Information Retrieval

2025년 8월 12일

[논문리뷰] Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

본 논문은 추론 모델에서 나타나는 추론 능력과 지시 따르기 능력 간의 트레이드오프 문제 를 해결하고자 합니다.

#Review #Self-Supervised RL #Instruction Following #Reasoning Models #Large Language Models #Reward Modeling #Curriculum Learning

2025년 8월 5일

[논문리뷰] Which Heads Matter for Reasoning? RL-Guided KV Cache Compression

추론(reasoning) 기반 대규모 언어 모델(LLM)은 긴 CoT(Chain-of-Thought) 생성을 통해 막대한 KV(Key-Value) 캐시 오버헤드를 발생시킵니다.

#Review #KV Cache Compression #Large Language Models (LLMs)#Reinforcement Learning (RL)#Reasoning Models #Attention Heads #Chain-of-Thought (CoT)#Memory Efficiency

2025년 10월 13일

[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

대규모 추론 모델의 후처리 훈련(Post-Training) 기법(SFT, RL 등)이 모델의 추론 능력 향상에 기여하는 내부 아키텍처 메커니즘의 불투명성을 해소하는 것이 주요 목표입니다.

#Review #Mechanistic Interpretability #Attention Heads #Post-Training #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Circuit Analysis #Reasoning Models #Transformer Architecture

2025년 10월 1일

[논문리뷰] Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

본 논문은 LLM의 추론 능력 강화를 위한 기존 Process-Supervised Reinforcement Learning (PSRL) 방법론의 제한된 탐색 효율성 문제를 해결하고자 합니다. 특히, 분기 위치 선정 및 샘플링 비효율성을 개선하고, 전반적인 훈련 효율성을 높이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Process-Supervised RL #Large Language Models #Reasoning Models #Attention Mechanism #Efficient Exploration #Adaptive Sampling #Off-Policy Training

2025년 10월 1일