[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

2026년 4월 7일수정: 2026년 4월 7일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Difan Jiao, Qianfeng Wen, Blair Yang, Zhenwei Tang, Ashton Anderson

1. Key Terms & Definitions (핵심 용어 및 정의)

RLVR (Reinforcement Learning with Verifiable Rewards) : 모델이 생성한 답변의 정오를 판별할 수 있는 외부 신호(예: 수학 문제의 정답)를 사용하여 강화학습을 수행하는 학습 패러다임입니다.
GRPO (Group Relative Policy Optimization) : Critic 모델 없이 그룹 내 생성된 샘플들의 상대적 보상을 바탕으로 advantage를 계산하여 정책을 업데이트하는 효율적인 RL 알고리즘입니다.
Self-Refinement : 모델이 생성한 초안(base solution)을 다시 검토하고 수정하여 최종 답변의 정확도를 높이는 과정입니다.
Rectify-then-Fortify Curriculum : 학습 초기에는 모델이 오류를 수정(Rectify)하는 방향으로 학습이 진행되고, 학습이 진행될수록 기존의 올바른 솔루션을 보존하고 최적화(Fortify)하는 방향으로 자연스럽게 전환되는 암묵적인 학습 과정을 의미합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LLM의 추론 성능을 향상시키기 위한 기존 Self-Refinement 기법들이 겪는 비효율성과 제약 사항을 해결하고자 합니다. 기존의 Inference-time(training-free) 방법들은 Reusable한 정책을 학습하지 못해 성능이 불안정하며, 반대로 Training-based 방법들은 복잡한 프로세스监督(Process supervision)이나 정답 여부를 알려주는 명시적 피드백이 필요하다는 한계가 있습니다. 저자들은 외부의 정교한 critique 신호나 정답 정보 없이도 모델이 스스로의 출력을 향상시킬 수 있는 효율적인 학습 구조가 필요함을 지적합니다 [Figure 1].

Figure 1: ThinkTwice의 핵심 동기

Figure 1 — ThinkTwice의 핵심 동기

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice 를 제안합니다. ThinkTwice 는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 [Figure 2]. 두 단계 모두 추가적인 정답 여부 신호나 critique annotation 없이 오직 최종 정답에 대한 binary correctness reward 만을 활용합니다. Qwen3-4B 모델을 사용한 실험 결과, ThinkTwice 는 AIME 벤치마크에서 기존 GRPO 대비 추론 성능은 5%, Self-Refinement 적용 후 성능은 11.5% 향상되는 압도적인 성능 우위를 보였습니다 [Table 1, Table 2]. 또한, 모델을 Refiner로 활용하는 교차 모델 평가에서도 가장 높은 성능을 기록하며 범용적인 Refinement 역량을 입증했습니다 [Figure 3].

Figure 2: ThinkTwice 학습 구조

Figure 2 — ThinkTwice 학습 구조

Figure 3: 모델 간 Refinement 비교

Figure 3 — 모델 간 Refinement 비교

4. Conclusion & Impact (결론 및 시사점)

본 연구는 공동 최적화된 Reasoning과 Self-Refinement 학습이 모델의 성능을 향상시키는 원리적이고 효과적인 방법론임을 입증했습니다. 학습 과정에서 나타나는 Rectify-then-Fortify 동학은 강화학습 신호를 더욱 정교하게 정류(Rectify)하여 학습 효율성을 극대화하며, 전체 학습 과정에서 GRPO 대비 최소한의 비용만을 추가하여 조기에 수렴하는 효과를 가져옵니다. 본 연구는 향후 수학적 추론을 넘어 코드 생성 및 다양한 도메인으로의 확장이 가능하며, 대규모 모델의 Self-Correction 능력을 극대화할 수 있는 핵심 지침을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning
현재글 : [논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement
다음글 [논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision