[논문리뷰] Believe Your Model: Distribution-Guided Confidence Calibration대규모 추론 모델(LRMs)이 테스트 시 스케일링 기법을 통해 다수의 후보 응답을 생성할 때, 내부 모델의 신뢰도 점수와 분포 정보를 충분히 활용하지 못하여 오답을 확신하는 문제를 해결하고자 합니다. 신뢰도 분포의 사전 정보를 효과적으로 통합하여 답변 선택의 신뢰성을 향상시키는 것을 목표로 합니다.#Review#Confidence Calibration#Test-Time Scaling#Large Reasoning Models (LRMs)#Gaussian Mixture Models (GMM)#Hierarchical Voting#Self-Reflection#Distributional Priors2026년 3월 9일댓글 수 로딩 중
[논문리뷰] GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts대규모 추론 모델(LRMs)의 다단계 사고 체인 생성에서 발생하는 막대한 추론 지연 및 계산 비용 문제를 해결하는 것이 목표입니다. 기존 협업 추론 방식들이 도입하는 비효율적인 오버헤드를 줄이면서, 각 추론 단계의 난이도를 효과적으로 예측하여 적절한 모델(경량 또는 대규모)을 할당하는 방법을 모색합니다.#Review#Collaborative Inference#Large Reasoning Models (LRMs)#Inference Latency#Step-wise Routing#Initial Token Entropy#Dynamic Routing#Computational Efficiency2026년 1월 12일댓글 수 로딩 중
[논문리뷰] ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning본 논문은 복잡한 추론 능력을 향상시키기 위해 어려운 수학 문제 의 생성을 확장하는 효율적인 파이프라인인 ScaleDiff 를 제안합니다. 기존의 문제 생성 방식이 높은 비용, 복잡한 프롬프트 엔지니어링, 그리고 제한적인 난이도 수준으로 인해 확장성이 부족하다는 한계를 극복하고자 합니다.#Review#Mathematical Reasoning#Large Reasoning Models (LRMs)#Difficulty Scaling#Data Augmentation#Supervised Fine-Tuning (SFT)#Problem Generation#Solution Distillation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information본 논문은 기존 수학 벤치마크가 잘 정의된 문제 해결 능력에만 초점을 맞추는 한계를 지적하며, Large Reasoning Models (LRMs) 이 정보가 불충분한 문제에 직면했을 때 능동적으로 정보를 요청하는 능력 을 평가하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#Information Seeking#Incomplete Problems#Mathematical Reasoning#Supervised Fine-tuning (SFT)#Overthinking#Hallucination#CRITIC-math2025년 8월 19일댓글 수 로딩 중
[논문리뷰] ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability논문은 기존 Long Chain-of-Thought (CoT) 추론 모델 들이 답변 정확도와 토큰 효율성에만 집중하여 신뢰성(trustworthiness) 을 간과하는 문제를 해결하고자 합니다.#Review#Trustworthy AI#Large Reasoning Models (LRMs)#Interpretability#Faithfulness#Reliability#Chain-of-Thought (CoT)#Supervised Fine-tuning (SFT)#GRPO2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Mitigating Overthinking through Reasoning Shaping본 논문은 Reinforcement Learning from Verifier Reward (RLVR)로 학습된 대규모 추론 모델(LRMs) 의 '과잉 사고(overthinking)' 문제를 해결하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#RLVR#Overthinking Mitigation#Reasoning Shaping#Segment-level Penalization#Computational Efficiency#Training Stability#Length-aware Weighting2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense본 논문은 대규모 추론 모델(LRMs)에서 '추론 방해(Reasoning Distraction)' 라는 새로운 취약점을 식별하고 체계적으로 분석하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#Prompt Injection#Adversarial Attack#Reasoning Distraction#Chain-of-Thought#Robustness#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)2025년 10월 21일댓글 수 로딩 중