[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

수정: 2025년 12월 8일

링크: 논문 PDF로 바로 열기

저자: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang

핵심 연구 목표

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다. 어드밴티지 신호를 활용한 일반화된 커리큘럼 어드밴티지 메커니즘(CAPO) 을 제안하여, 안정적인 기초를 확립하고 복잡한 교차 도메인 추론 작업 전반에 걸쳐 모델의 일반화 능력을 향상시키고자 합니다.

핵심 방법론

제안하는 CAPO (Curriculum Advantage Policy Optimization) 는 어드밴티지 신호를 기반으로 한 두 단계 커리큘럼 학습 전략을 채택합니다. 첫 번째 모방 단계(Imitation Phase) 에서는 긍정적 어드밴티지 샘플만(A+ > 0) 을 사용하여 안정적인 학습 기반을 구축하고, 두 번째 차별화 단계(Discriminative Phase) 에서는 사전 정의된 전환 시점(switch point) 이후 모든 어드밴티지 스펙트럼(긍정 및 부정 샘플)을 도입하여 판별 능력을 향상시킵니다. 이 메커니즘은 GRPO, PPO, RLOO, Reinforce++ 등 다양한 기존 RL 알고리즘과 호환되며, 이론적으로는 초기 학습 단계에서 그래디언트 분산(gradient variance)을 줄이고 후기 단계에서 비편향성(unbiasedness)을 회복 하여 안정성과 일반화를 동시에 추구합니다.

주요 결과

수학적 추론 작업 에서 CAPO는 다양한 RL 알고리즘과 모델 규모에 걸쳐 +1.7에서 +4.0 포인트 의 일관된 성능 향상을 보였습니다. 특히 7B 모델에서 AMC 점수를 52.5에서 65.0으로 (+12.5) , AIME24 점수를 16.7에서 20.0으로 (+3.3) 향상시키는 등 경쟁 수준의 작업에서 큰 개선을 달성했습니다. 또한 멀티모달 GUI 기반 추론 작업 에서는 계획 태스크에서 평균 +3.81 의 높은 일반화 성능 향상을 입증하였으며, OOD(Out-Of-Distribution) 벤치마크에서도 GRPO 대비 +3.8 의 견고성을 보였습니다.

AI 실무자를 위한 시사점

본 연구는 강화 학습 기반 LLM 훈련 에서 초기 학습의 불안정성을 극복하고 일반화 성능을 향상시키는 실용적인 방안을 제시합니다. CAPO 는 기존의 다양한 RL 알고리즘에 플러그인 방식으로 적용 가능 하여, AI/ML 엔지니어들이 수학적 추론뿐만 아니라 멀티모달 GUI 제어 와 같은 복잡한 교차 도메인 작업에서 AI 에이전트의 성능을 안정적으로 개선하는 데 직접적으로 기여할 수 있습니다. 특히 대규모 데이터셋과 복잡한 환경에서 안정적인 학습 다이내믹스 를 확보하는 데 유용합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Reinforcement Learning#Large Language Models#Curriculum Learning#Advantage Function#Reasoning Tasks#Multimodal AI#Policy Optimization#Generalization

Review 의 다른글