[논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?

2026년 2월 22일수정: 2026년 2월 22일

링크: 논문 PDF로 바로 열기

저자: Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

핵심 연구 목표

본 논문은 대규모 추론 모델(LRMs)이 긴 Chain of Thought (CoT) 를 통해 복잡한 추론 작업을 수행할 때 발생하는 상당한 중복과 비효율성 문제를 해결하는 것을 목표로 합니다. 특히, LRMs가 추론을 멈춰야 할 적절한 시점을 "암묵적으로 알고 있음"에도 불구하고 현재의 샘플링 패러다임 때문에 이러한 능력이 가려져 있음을 밝히고, 이를 해방할 수 있는 새로운 샘플링 방법론을 제시하는 것이 주된 연구 목적입니다.

핵심 방법론

연구진은 모델의 자기 신뢰도(self-confidence)를 활용하여 효율적인 추론 잠재력을 발휘하는 SAGE (Self-Aware Guided Efficient Reasoning) 라는 새로운 샘플링 패러다임을 제안합니다. SAGE는 토큰 단위 추론 경로 탐색 과 누적 로그 확률(Φ) 을 기반으로 높은 신뢰도의 간결한 추론 체인 을 식별하며, 토큰의 등장 및 랭크를 통해 탐색을 조기 종료합니다. 더 나아가, SAGE를 그룹 기반 강화 학습(SAGE-RL) 의 롤아웃 프로세스에 혼합 샘플링 방식으로 통합하여, 모델이 효율적인 추론 패턴을 학습하도록 합니다.

주요 결과

SAGE-RL 은 MATH-500 , AIME 2024/2025 , AMC23 , OlympiadBench , Minerva 등 여러 수학 벤치마크에서 평균 정확도 2.1% 향상 과 평균 토큰 수 44.1% 감소 를 동시에 달성했습니다. 특히, SAGE-GRPO-tuned 모델 은 RFCS(<1) 비율이 크게 줄어들어 불필요한 추론 단계를 효과적으로 감소시켰으며, 기본 모델 대비 추론 대기 시간을 40% 이상 단축 하는 등 효율성 및 정확성 면에서 모두 우수한 성능을 입증했습니다.

AI 실무자를 위한 시사점

이 연구는 LRMs가 추론 중단 시점을 내재적으로 알고 있다 는 중요한 통찰을 제공하여, 불필요한 컴퓨팅 자원 낭비 를 줄이고 실시간 애플리케이션에 대한 LRM 적용 가능성 을 높입니다. SAGE 와 SAGE-RL 은 기존 강화 학습 프레임워크에 쉽게 통합될 수 있는 실용적인 방법론으로, 적은 추가 비용 으로 모델의 추론 효율성과 정확성을 동시에 향상시킬 수 있습니다. 이는 특히 수학적 추론 과 같이 복잡하지만 단계별 검증이 가능한 태스크 에서 LRM의 성능을 극대화하는 데 기여할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning
현재글 : [논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?
다음글 [논문리뷰] EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots