[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
링크: 논문 PDF로 바로 열기
저자: Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang, Wang Zhou, Tao Huang, Fuzhen Zhuang, Xianglong Liu, Jianxin Li, Deqing Wang, Yikun Ban
핵심 연구 목표
이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다. 특히, 모델이 높은 확신을 보일 때 추가 학습의 효과가 미미해지는 문제를 극복하고, 기존의 강력한 모델 모방 방식 대신 약한 모델의 과거 상태 에서 유용한 학습 신호를 추출하는 새로운 패러다임인 Weak-Driven Learning 을 제안합니다.
핵심 방법론
제안된 프레임워크인 WMSS (Weak Agents Can Make Strong Agents Stronger) 는 세 가지 단계로 구성됩니다. 첫째, 약한 모델(Mweak) 과 강한 모델(Mstrong) 을 초기화합니다. 둘째, 커리큘럼 기반 데이터 활성화 를 통해 weak 모델의 엔트로피 역학을 활용하여 학습에 가장 유익한 데이터를 선별합니다. 셋째, Logit Mixing 을 통해 약한 모델의 예측(Zweak)과 강한 모델의 예측(Zstrong)을 선형 결합한 혼합 로짓(Zmix) 을 사용하여, 강한 모델이 이미 포화된 영역에서도 의미 있는 구배를 받아 학습을 지속하도록 합니다.
주요 결과
WMSS 는 표준 SFT(Supervised Fine-Tuning) 대비 일관된 성능 향상을 보였으며, 특히 Qwen3-4B-Base 모델의 수학적 추론 능력은 64.1%에서 69.1% 로 5.0%p 증가했습니다. 코드 생성 태스크에서도 63.1%에서 66.8% 로 3.7%p 향상되었습니다. 특히 AIME2025 와 같은 어려운 태스크에서는 SFT baseline 대비 12.2%에서 20.0% 로 성능이 크게 향상 되었으며, 추가적인 추론 비용 없이 최적화 포화를 효과적으로 해결했습니다.
AI 실무자를 위한 시사점
Weak-Driven Learning 은 LLM 최적화에 대한 혁신적인 접근 방식을 제공하며, 외부의 강력한 교사 모델 없이도 모델 자체의 학습 이력 을 활용하여 성능을 끌어올릴 수 있음을 시사합니다. Logit Mixing 과 커리큘럼 학습 을 통해 구배 소실 문제를 완화하고, 특히 수학적 추론 및 코드 생성 과 같이 복잡한 추론이 필요한 태스크에서 모델의 일반화 능력을 향상시키는 데 실용적인 가치를 가집니다. 이는 AI 시스템의 자율적인 성능 개선 가능성을 열어줍니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
- 현재글 : [논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
- 다음글 [논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models