본문으로 건너뛰기

[논문리뷰] TTCS: Test-Time Curriculum Synthesis for Self-Evolving

링크: 논문 PDF로 바로 열기

저자: Chengyi Yang, Zhishang Xiang, Yunbo Tang, Zongpei Teng, Chengsong Huang, Fei Long, Yuhan Liu, Jinsong Su

핵심 연구 목표

TTCS는 대규모 언어 모델(LLM)이 테스트 질문만 사용하여 추론 능력을 향상시키는 기존 Test-Time Training(TTT) 방법론의 한계를 극복하고자 합니다. 특히 어려운 추론 문제에서 발생하는 신뢰할 수 없는 의사(pseudo) 레이블과 학습 가능한 샘플 부족 문제를 해결하여, LLM의 자율적 진화를 위한 안정적이고 효과적인 경로를 제공하는 것을 목표로 합니다.

핵심 방법론

TTCS는 질문 생성기(Synthesizer)추론 해결기(Solver) 라는 두 개의 에이전트가 함께 진화하는 프레임워크를 제안합니다. 생성기 는 해결기의 현재 능력에 맞춰 점진적으로 난이도가 조절된 질문 변형을 생성하고, 해결기 는 원본 및 합성 질문에 대한 다중 샘플링 응답에서 계산된 자체 일관성 보상 을 사용하여 업데이트됩니다. 이 과정은 Group Relative Policy Optimization (GRPO) 을 통해 반복적으로 최적화되며, 해결기의 피드백이 생성기의 질문 난이도 조절에 중요한 역할을 합니다.

주요 결과

TTCS는 다양한 LLM 백본에서 기존 방법론들을 능가하는 우수한 성능을 보였습니다. 특히 Qwen2.5-Math-1.5B 모델 에서는 평균 정확도를 17.30점 에서 41.49점 으로 +24.19점 향상시켰습니다. 또한, AIME24 벤치마크 에서 TTRL의 13.23점 대비 19.79점 을 달성하며 +6.56점 개선을 보였고, 다른 어려운 수학 벤치마크 및 일반 도메인 태스크에서도 일관된 성능 향상과 뛰어난 일반화 능력을 입증했습니다.

AI 실무자를 위한 시사점

TTCS는 외부 레이블이나 강력한 교사 모델 없이도 LLM의 추론 능력을 자율적으로 향상시킬 수 있는 실용적인 방법을 제시합니다. 동적으로 생성되는 커리큘럼을 통해 모델이 어려운 문제에 효과적으로 적응하도록 돕고, 제한된 데이터 상황에서도 안정적인 학습을 가능하게 합니다. 이는 복잡한 추론 작업에서 LLM의 확장 가능한 자체 진화 를 위한 중요한 발판을 마련하며, 차세대 AI 에이전트 개발에 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글