#Large Reasoning Models

19개의 포스트

[논문리뷰] Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

본 논문은 LRM이 복잡한 문제 해결 과정에서 정답을 찾은 후에도 반복적인 검증이나 재구성을 수행하며 자원을 낭비하는 Overthinking 문제를 해결하고자 합니다 .

#Review #Large Reasoning Models #Early Exit #Chain of Thought #Semantic Redundancy #Inference Efficiency #Answer Verification

2026년 5월 18일

[논문리뷰] Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

본 논문은 LRM에서 생성되는 Chain of Thought(CoT)가 모델의 최종 출력과 항상 일치하지 않는다는 'Unfaithfulness' 문제를 해결하고자 합니다 .

#Review #Large Reasoning Models #Chain of Thought #Probe Trajectories #Representation Engineering #AI Safety #Max-pooling #Interpretability

2026년 5월 18일

[논문리뷰] TEMPO: Scaling Test-time Training for Large Reasoning Models

본 논문은 기존 <strong>Large Reasoning Models (LRMs)</strong>의 테스트 시점 학습(Test-time Training, TTT)이 겪는 성능 정체 및 다양성 붕괴 문제를 해결하고자 합니다.

#Review #Test-time Training #Large Reasoning Models #Expectation-Maximization #Actor-Critic #Reinforcement Learning #Scalability #Diversity

2026년 4월 21일

[논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?

본 논문은 대규모 추론 모델(LRMs)이 긴 Chain of Thought (CoT) 를 통해 복잡한 추론 작업을 수행할 때 발생하는 상당한 중복과 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Large Reasoning Models #Chain of Thought #Efficient Inference #Self-Aware Sampling #Reinforcement Learning #Reasoning Termination #Mathematical Benchmarks

2026년 2월 22일

[논문리뷰] THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

본 논문은 강화 학습(RL) 기반의 추론 모델들이 복잡한 추론 태스크에서 성능을 극대화하는 과정에서 발생하는 '안전성 저하(safety tax)' 문제를 해결하고자 합니다.

#Review #Large Reasoning Models #Safety Alignment #Self-Distillation #Refusal Steering #Distributional Shift #Chain-of-Thought #Reinforcement Learning

2026년 2월 1일

[논문리뷰] User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale

기존 멀티턴 도구 사용(tool-use) 데이터셋의 한계(정적, 사전 정의된 도구셋, 단일 샷 위주)를 극복하고, 실제 인간-에이전트 협업의 반복적이고 점진적인 특성을 반영하는 확장 가능한 고품질 멀티턴 대화 데이터 생성 프레임워크 를 개발하는 것이 목표입니다.

#Review #Multi-Turn Dialogue Generation #Tool Use #Autonomous Agents #Large Reasoning Models #User Simulation #Synthetic Data Generation #SQL-based Tools #Agentic Benchmarks

2026년 1월 13일

[논문리뷰] When Reasoning Meets Its Laws

이 논문은 대규모 추론 모델(LRMs) 의 비직관적이고 최적화되지 않은 추론 행동을 체계적으로 이론화하고, 바람직한 추론 패턴을 특성화하기 위한 Laws of Reasoning (LORE) 프레임워크를 제안합니다.

#Review #Large Reasoning Models #Reasoning Behaviors #Compute Law #Accuracy Law #Monotonicity #Compositionality #Fine-tuning #LORE-BENCH

2025년 12월 21일

[논문리뷰] MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models

본 연구는 Large Reasoning Models (LRMs)에서 발생하는 '추론-답변 불일치(reasoning-answer hit gap)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 추론 과정에서 올바른 사실을 식별함에도 불구하고 최종 답변에 이를 통합하지 못하여 사실적 정확도가 저하되는 현상을 말합니다.

#Review #Large Reasoning Models #Factuality Alignment #Meta-Reasoning #Kahneman-Tversky Optimization #Chain-of-Thought #Hallucination #Process-Level Alignment

2025년 11월 9일

[논문리뷰] Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory

본 논문은 Large Reasoning Models (LRMs) 이 생성하는 Chain-of-Thought (CoT) 추론 과정의 내부 구조와 사고 패턴을 체계적으로 이해하는 데 필요한 프레임워크의 부재 문제를 해결합니다.

#Review #Large Reasoning Models #Cognitive Science #Schoenfeld's Episode Theory #Math Problem Solving #Chain-of-Thought #Behavioral Analysis #Dataset Annotation

2025년 9월 26일

[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

본 논문은 대규모 추론 모델(LRMs)에서 효과적인 CoT(Chain-of-Thought) 추론의 특성을 규명하는 것을 목표로 합니다. 특히, 기존의 '길수록 좋다'는 CoT 길이 및 검토(review) 증가 경향에 의문을 제기하고, 추론 과정의 어휘적, 구조적 특성이 정확도에 미치는 영향을 체계적으로 분석하고자 합니다.

#Review #Chain-of-Thought #Reasoning Effectiveness #Large Reasoning Models #Failed-Step Fraction #Test-time Scaling #Reasoning Graph #Model Evaluation

2025년 9월 24일

[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

본 논문은 최신 대규모 추론 모델(LRMs) 을 자동으로 검증 가능한 텍스트 및 시각 질문 에 대해 오염 없는(contamination-free) 방식으로 평가하는 예비 보고서입니다.

#Review #Large Reasoning Models #LLM Evaluation #Multimodal AI #Reasoning Behaviors #Hallucination #Contamination-Free #AI Safety #Instruction Following

2025년 9월 23일

[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models

본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Reasoning Models #LLMs #Reward Design #Policy Optimization #Verifiable Rewards #Agentic AI #Multimodal AI

2025년 9월 11일

[논문리뷰] HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches

이 논문은 기업 환경에서 로컬(사내 문서/지식 그래프) 및 웹 지식 소스 를 동시에 활용하는 딥 서치 시스템의 필요성에 주목합니다.

#Review #Hierarchical Reinforcement Learning #Deep Search #Multi-source RAG #Agentic AI #Knowledge Integration #Enterprise Search #Large Reasoning Models

2025년 8월 13일

[논문리뷰] Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

본 논문은 대규모 추론 모델(LRMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도하게 긴 추론 트레이스 문제를 해결하여, 학습 비용과 추론 지연 시간을 줄이는 동시에 코드 추론 성능을 유지하거나 향상시키는 것을 목표로 합니다.

#Review #Code Reasoning #CoT Compression #LLMs #Efficiency #Surprisal #Pruning #Fine-tuning #Large Reasoning Models

2025년 8월 11일

[논문리뷰] Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models

본 설문 연구는 DeepSeek R1 과 같은 R1-style Large Reasoning Models (LRMs) 에서 흔히 발생하는 '과잉 사고(overthinking)' 문제를 해결하고, 효율적인 추론 방법을 체계적으로 분류 및 분석하는 것을 목표로 합니다.

#Review #Large Reasoning Models #Efficient Reasoning #Chain-of-Thought #Model Optimization #Model Collaboration #Overthinking Problem #LLM Efficiency

2025년 8월 8일

[논문리뷰] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

이 논문은 기존 벤치마크가 대규모 추론 모델(LRMs)의 복잡하고 상호 의존적인 장기 추론 능력을 충분히 평가하지 못하는 문제를 해결하고자 합니다. 특히, LRMs가 다단계 추론 시나리오에서 얼마나 깊고 넓게 추론할 수 있는지 그 한계를 평가하고 향상시키는 것을 목표로 합니다.

#Review #Long-Horizon Reasoning #Query Composition #Large Reasoning Models #Reinforcement Learning #Benchmark Evaluation #Thinking Budget #Performance Degradation #Chain-of-Thought

2025년 10월 13일

[논문리뷰] CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling

본 연구는 Large Reasoning Models (LRMs)을 최적화 모델링 태스크에 효과적으로 적용하기 위한 새로운 프레임워크를 제안합니다.

#Review #Large Reasoning Models #Optimization Modeling #Reflective Generation #Supervised Fine-tuning #Reinforcement Learning #Human-in-the-Loop #Code Generation #Domain Adaptation

2025년 10월 9일

[논문리뷰] Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

본 논문은 대규모 추론 모델(LRMs)에서 안전 정렬(safety alignment) 이 실패하는 근본적인 메커니즘을 기계론적 해석 가능성(mechanistic interpretability) 관점에서 조사하는 것을 목표로 합니다.

#Review #Safety Alignment #Large Reasoning Models #Mechanistic Interpretability #Refusal Cliff #Attention Heads #Data Selection #Linear Probing

2025년 10월 8일

[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

본 논문은 대규모 추론 모델(LRMs)이 기계 번역(MT) 품질 평가자로서 어떤 성능을 보이는지 체계적으로 분석하고, 그 과정에서 발생하는 비효율성과 한계를 식별하는 것을 목표로 합니다.

#Review #Machine Translation Evaluation #Large Reasoning Models #LLM-as-a-judge #MQM #Fine-tuning #Thinking Calibration #Computational Efficiency #Meta-evaluation

2025년 10월 27일