[논문리뷰] Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models본 논문은 LRM이 복잡한 문제 해결 과정에서 정답을 찾은 후에도 반복적인 검증이나 재구성을 수행하며 자원을 낭비하는 Overthinking 문제를 해결하고자 합니다 .#Review#Large Reasoning Models#Early Exit#Chain of Thought#Semantic Redundancy#Inference Efficiency#Answer Verification2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics본 논문은 LRM에서 생성되는 Chain of Thought(CoT)가 모델의 최종 출력과 항상 일치하지 않는다는 'Unfaithfulness' 문제를 해결하고자 합니다 .#Review#Large Reasoning Models#Chain of Thought#Probe Trajectories#Representation Engineering#AI Safety#Max-pooling#Interpretability2026년 5월 18일댓글 수 로딩 중
[논문리뷰] TEMPO: Scaling Test-time Training for Large Reasoning Models본 논문은 기존 <strong>Large Reasoning Models (LRMs)</strong>의 테스트 시점 학습(Test-time Training, TTT)이 겪는 성능 정체 및 다양성 붕괴 문제를 해결하고자 합니다.#Review#Test-time Training#Large Reasoning Models#Expectation-Maximization#Actor-Critic#Reinforcement Learning#Scalability#Diversity2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?본 논문은 대규모 추론 모델(LRMs)이 긴 Chain of Thought (CoT) 를 통해 복잡한 추론 작업을 수행할 때 발생하는 상당한 중복과 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#Large Reasoning Models#Chain of Thought#Efficient Inference#Self-Aware Sampling#Reinforcement Learning#Reasoning Termination#Mathematical Benchmarks2026년 2월 22일댓글 수 로딩 중
[논문리뷰] THINKSAFE: Self-Generated Safety Alignment for Reasoning Models본 논문은 강화 학습(RL) 기반의 추론 모델들이 복잡한 추론 태스크에서 성능을 극대화하는 과정에서 발생하는 '안전성 저하(safety tax)' 문제를 해결하고자 합니다.#Review#Large Reasoning Models#Safety Alignment#Self-Distillation#Refusal Steering#Distributional Shift#Chain-of-Thought#Reinforcement Learning2026년 2월 1일댓글 수 로딩 중
[논문리뷰] User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale기존 멀티턴 도구 사용(tool-use) 데이터셋의 한계(정적, 사전 정의된 도구셋, 단일 샷 위주)를 극복하고, 실제 인간-에이전트 협업의 반복적이고 점진적인 특성을 반영하는 확장 가능한 고품질 멀티턴 대화 데이터 생성 프레임워크 를 개발하는 것이 목표입니다.#Review#Multi-Turn Dialogue Generation#Tool Use#Autonomous Agents#Large Reasoning Models#User Simulation#Synthetic Data Generation#SQL-based Tools#Agentic Benchmarks2026년 1월 13일댓글 수 로딩 중
[논문리뷰] When Reasoning Meets Its Laws이 논문은 대규모 추론 모델(LRMs) 의 비직관적이고 최적화되지 않은 추론 행동을 체계적으로 이론화하고, 바람직한 추론 패턴을 특성화하기 위한 Laws of Reasoning (LORE) 프레임워크를 제안합니다.#Review#Large Reasoning Models#Reasoning Behaviors#Compute Law#Accuracy Law#Monotonicity#Compositionality#Fine-tuning#LORE-BENCH2025년 12월 21일댓글 수 로딩 중
[논문리뷰] MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models본 연구는 Large Reasoning Models (LRMs)에서 발생하는 '추론-답변 불일치(reasoning-answer hit gap)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 추론 과정에서 올바른 사실을 식별함에도 불구하고 최종 답변에 이를 통합하지 못하여 사실적 정확도가 저하되는 현상을 말합니다.#Review#Large Reasoning Models#Factuality Alignment#Meta-Reasoning#Kahneman-Tversky Optimization#Chain-of-Thought#Hallucination#Process-Level Alignment2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory본 논문은 Large Reasoning Models (LRMs) 이 생성하는 Chain-of-Thought (CoT) 추론 과정의 내부 구조와 사고 패턴을 체계적으로 이해하는 데 필요한 프레임워크의 부재 문제를 해결합니다.#Review#Large Reasoning Models#Cognitive Science#Schoenfeld's Episode Theory#Math Problem Solving#Chain-of-Thought#Behavioral Analysis#Dataset Annotation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT본 논문은 대규모 추론 모델(LRMs)에서 효과적인 CoT(Chain-of-Thought) 추론의 특성을 규명하는 것을 목표로 합니다. 특히, 기존의 '길수록 좋다'는 CoT 길이 및 검토(review) 증가 경향에 의문을 제기하고, 추론 과정의 어휘적, 구조적 특성이 정확도에 미치는 영향을 체계적으로 분석하고자 합니다.#Review#Chain-of-Thought#Reasoning Effectiveness#Large Reasoning Models#Failed-Step Fraction#Test-time Scaling#Reasoning Graph#Model Evaluation2025년 9월 24일댓글 수 로딩 중
[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions본 논문은 최신 대규모 추론 모델(LRMs) 을 자동으로 검증 가능한 텍스트 및 시각 질문 에 대해 오염 없는(contamination-free) 방식으로 평가하는 예비 보고서입니다.#Review#Large Reasoning Models#LLM Evaluation#Multimodal AI#Reasoning Behaviors#Hallucination#Contamination-Free#AI Safety#Instruction Following2025년 9월 23일댓글 수 로딩 중
[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Reasoning Models#LLMs#Reward Design#Policy Optimization#Verifiable Rewards#Agentic AI#Multimodal AI2025년 9월 11일댓글 수 로딩 중
[논문리뷰] HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches이 논문은 기업 환경에서 로컬(사내 문서/지식 그래프) 및 웹 지식 소스 를 동시에 활용하는 딥 서치 시스템의 필요성에 주목합니다.#Review#Hierarchical Reinforcement Learning#Deep Search#Multi-source RAG#Agentic AI#Knowledge Integration#Enterprise Search#Large Reasoning Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal본 논문은 대규모 추론 모델(LRMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도하게 긴 추론 트레이스 문제를 해결하여, 학습 비용과 추론 지연 시간을 줄이는 동시에 코드 추론 성능을 유지하거나 향상시키는 것을 목표로 합니다.#Review#Code Reasoning#CoT Compression#LLMs#Efficiency#Surprisal#Pruning#Fine-tuning#Large Reasoning Models2025년 8월 11일댓글 수 로딩 중
[논문리뷰] Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models본 설문 연구는 DeepSeek R1 과 같은 R1-style Large Reasoning Models (LRMs) 에서 흔히 발생하는 '과잉 사고(overthinking)' 문제를 해결하고, 효율적인 추론 방법을 체계적으로 분류 및 분석하는 것을 목표로 합니다.#Review#Large Reasoning Models#Efficient Reasoning#Chain-of-Thought#Model Optimization#Model Collaboration#Overthinking Problem#LLM Efficiency2025년 8월 8일댓글 수 로딩 중
[논문리뷰] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?이 논문은 기존 벤치마크가 대규모 추론 모델(LRMs)의 복잡하고 상호 의존적인 장기 추론 능력을 충분히 평가하지 못하는 문제를 해결하고자 합니다. 특히, LRMs가 다단계 추론 시나리오에서 얼마나 깊고 넓게 추론할 수 있는지 그 한계를 평가하고 향상시키는 것을 목표로 합니다.#Review#Long-Horizon Reasoning#Query Composition#Large Reasoning Models#Reinforcement Learning#Benchmark Evaluation#Thinking Budget#Performance Degradation#Chain-of-Thought2025년 10월 13일댓글 수 로딩 중
[논문리뷰] CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling본 연구는 Large Reasoning Models (LRMs)을 최적화 모델링 태스크에 효과적으로 적용하기 위한 새로운 프레임워크를 제안합니다.#Review#Large Reasoning Models#Optimization Modeling#Reflective Generation#Supervised Fine-tuning#Reinforcement Learning#Human-in-the-Loop#Code Generation#Domain Adaptation2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?본 논문은 대규모 추론 모델(LRMs)에서 안전 정렬(safety alignment) 이 실패하는 근본적인 메커니즘을 기계론적 해석 가능성(mechanistic interpretability) 관점에서 조사하는 것을 목표로 합니다.#Review#Safety Alignment#Large Reasoning Models#Mechanistic Interpretability#Refusal Cliff#Attention Heads#Data Selection#Linear Probing2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost본 논문은 대규모 추론 모델(LRMs)이 기계 번역(MT) 품질 평가자로서 어떤 성능을 보이는지 체계적으로 분석하고, 그 과정에서 발생하는 비효율성과 한계를 식별하는 것을 목표로 합니다.#Review#Machine Translation Evaluation#Large Reasoning Models#LLM-as-a-judge#MQM#Fine-tuning#Thinking Calibration#Computational Efficiency#Meta-evaluation2025년 10월 27일댓글 수 로딩 중