[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors

2025년 12월 3일수정: 2025년 12월 3일

링크: 논문 PDF로 바로 열기

저자: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett

핵심 연구 목표

본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.

SkillFactory는 두 단계로 구성됩니다. 첫째, 모델 자신의 샘플링된 추론을 구조화된 "실버(silver)" 트레이스 로 재구성하여 명시적인 태그 (sample, reflect, verdict)를 통해 검증 및 재시도와 같은 인지 스킬을 시연합니다. 둘째, 이 구조화된 실버 트레이스 로 모델을 감독 학습(SFT) 하여 스킬 구조를 내재화한 후, GRPO 기반의 강화 학습(RL) 을 통해 이러한 스킬을 언제 어떻게 효과적으로 사용할지 정교화합니다.

주요 결과

SkillFactory → GRPO는 Countdown 태스크의 어려운 변형 에서 R1 Distill → GRPO 대비 +3.9%p 높은 25.1%의 정확도 를 달성하며 일관되게 강력한 성능을 보였습니다. 모델 내부 분석 결과, Countdown-3arg 태스크에서 검증기 F1 점수가 정답 0.96, 오답 0.92 로 인지 스킬이 활발히 사용됨을 확인했습니다. 또한, OpenThoughts 데이터셋 1k SFT 규모에서 AMC (37.5%) 및 Math500 (64.6%) 벤치마크에서 QwQ distillation을 능가하며 복잡한 수학적 추론 능력을 향상시켰습니다.

AI 실무자를 위한 시사점

SkillFactory는 외부 고성능 모델 없이 기존 LLM의 자체 생성 데이터를 활용 하여 인지적 스킬을 부여할 수 있는 효율적인 방안을 제시합니다. 이는 AI 개발자가 데이터 증강 및 구조화된 SFT 를 통해 모델의 추론 능력과 OOD 일반화 능력 을 향상시킬 수 있는 실용적인 방법론을 제공하며, 대규모 외부 데이터나 더 큰 모델 없이도 복잡한 문제 해결 능력을 개선하는 데 기여합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
현재글 : [논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors
다음글 [논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

핵심 연구 목표

핵심 방법론

주요 결과

AI 실무자를 위한 시사점

Review 의 다른글