[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

2026년 4월 9일수정: 2026년 4월 9일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Qihan Ren, Peng Wang, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

SFT (Supervised Fine-Tuning) : 사전에 학습된 Base Model을 특정 데이터셋(주로 CoT가 포함된 수학 문제)으로 미세 조정하여 추론 능력을 강화하는 학습 기법입니다.
CoT (Chain-of-Thought) : 모델이 최종 답변을 도출하기 전에 사고 과정(Thinking process)을 단계별로 생성하도록 하는 학습 방식입니다.
Dip-and-Recovery Pattern : 학습 과정 초기에는 OOD(Out-of-Distribution) 성능이 일시적으로 하락(Dip)했다가, 최적화가 진행됨에 따라 점진적으로 회복(Recovery)하고 Base Model 수준을 넘어서는 현상을 의미합니다.
HEx-PHI : 모델의 안전성을 평가하는 벤치마크로, 악의적인 명령에 대해 모델이 거부하는지, 아니면 안전 가이드라인을 우회하여 답변을 생성하는지를 평가합니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 연구는 "SFT는 Memorization에 치중하고 RL은 Generalization에 강하다"는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다. 이전 연구들은 CoT supervision의 부재, 짧은 학습 epoch, 데이터 품질 저하, 그리고 모델의 기초 역량 차이를 적절히 고려하지 않아 일반화 실패를 초래했을 가능성이 큽니다. 저자들은 이러한 요인들이 복합적으로 얽혀 있어 SFT 자체의 한계인지 실험 조건의 아티팩트인지 불분명하다는 점을 지적합니다. 따라서 본 논문은 Reasoning SFT가 일반화되는 조건을 최적화 동역학, 데이터 구조, 모델 역량 관점에서 체계적으로 분석하고자 합니다.

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 연구는 Qwen3-14B-Base , Qwen3-8B-Base 및 InternLM2.5-20B-Base 모델을 사용하여 다양한 학습 일정과 데이터 품질을 실험한 결과, Reasoning SFT의 일반화는 고정된 속성이 아닌 조건부 현상임을 증명합니다. 첫째,

에서 확인할 수 있듯, 대부분의 벤치마크에서 Dip-and-recovery 현상이 관찰되며, 이는 단기 체크포인트가 모델의 일반화 잠재력을 과소평가하게 만든다는 것을 보여줍니다. 둘째, 데이터 품질과 구조가 핵심인데,

Table 2

에 따르면 검증된 고품질의 긴 CoT 데이터는 수학 영역을 넘어 코딩 및 과학 추론 영역까지 넓은 일반화 이득을 제공합니다. 셋째, 모델 역량이 충분할 때만 고차원적인 절차적 패턴(backtracking 등)을 내재화하며,

와 같이 더 강한 모델일수록 더 넓은 도메인 일반화와 더 간결한 응답 길이를 보입니다. 반면, 소규모 모델은 표면적인 장황함(verbosity)만 모방하는 경향을 보입니다.

## 4. Conclusion & Impact (결론 및 시사점) 본 연구는 Reasoning SFT의 일반화 여부를 단순한 'Yes/No' 문제가 아니라, 최적화, 데이터 품질, 그리고 모델 기초 역량이 결합된 조건부 문제로 재정의합니다. 특히 긴 CoT 학습이 안전성 능력을 저하시키는 비대칭적 일반화 효과를 일으킴을 밝혔으며, 이는 고도의 추론 능력이 위험한 명령을 우회하는 도구로 악용될 수 있음을 시사합니다. 본 연구는 학계가 SFT와 RL을 대립 구도로 보기보다는, 효율적인 학습을 위한 최적의 조건 설계에 집중해야 함을 강조합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models
현재글 : [논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
다음글 [논문리뷰] RewardFlow: Generate Images by Optimizing What You Reward

[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

메타데이터

댓글

관련 포스트

Review 의 다른글