[논문리뷰] Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training
링크: 논문 PDF로 바로 열기
저자: Valentin Lacombe, Valentin Quesnel, Damien Sileo
핵심 연구 목표
이 논문은 대규모 언어 모델(LLM)의 추론 능력 확장을 위해 기존 생성 방식의 분포적 다양성 부족 문제를 해결하고자 합니다. 특히 검증 가능한 상징적 추론 데이터 를 절차적으로 생성할 수 있는 확장 가능한 데이터 생성 스위트 Reasoning Core 를 제안하여, 모델의 사전 훈련 및 사후 훈련 단계에서 활용될 수 있는 기초적인 추론 프리미티브 를 구축하는 것을 목표로 합니다.
핵심 방법론
Reasoning Core 는 PDDL 계획 , 1차 논리(equality 포함) , 문맥 자유 문법(CFG) 구문 분석 및 생성 , 베이즈 네트워크 기반 인과 추론 , 상징적 방정식 풀이 등 핵심 형식 도메인에 걸쳐 데이터를 생성합니다. 각 태스크에는 외부 솔버 를 통한 엄격한 검증 기능과 연속적인 난이도 조절 메커니즘이 포함됩니다. 또한 gramforge 프레임워크 를 활용한 문법 기반 생성을 통해 높은 분포적 일반성을 보장하며, 솔버에서 파생된 추론 흔적(reasoning traces) 을 제공하여 지도 학습 및 RLVR(Reinforcement Learning with Verifiable Rewards)에 활용될 수 있습니다.
주요 결과
Reasoning Core 데이터 를 사전 훈련 및 명령어 튜닝 데이터셋에 혼합한 결과, PlatinumBench 에서 측정된 다운스트림 추론 능력(answer NLL) 이 일관되게 향상되었으며, 동시에 언어 모델링 품질은 유지되거나 약간 개선되었습니다. GPT-5 계열 모델 에 대한 제로샷 평가에서는 난이도 레벨 'hard' 에서 대부분의 태스크가 50% 미만의 평균 보상 을 기록하며, 제안된 태스크들이 최신 LLM에게도 도전적임을 확인했습니다. 특히, 훈련 토큰 비율 r=0.5 에서 가장 효과적인 데이터 혼합 지점을 발견했습니다.
AI 실무자를 위한 시사점
Reasoning Core 는 LLM에 기초적인 추론 능력 을 주입하기 위한 확장 가능한 고품질 합성 데이터 를 생성하는 실용적인 방법을 제공합니다. 생성된 데이터는 외부 솔버 를 통해 검증되므로 모델 훈련 시 높은 신뢰성을 보장하며, 연속적인 난이도 조절 기능은 효율적인 커리큘럼 학습에 유용합니다. 이는 PDDL 계획, 1차 논리, CFG 구문 분석 등 핵심 상징 도메인에 걸쳐 분포적 일반성 이 높은 데이터를 제공하여, 대규모 언어 모델의 추론 능력 확장 에 기여할 수 있습니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] OpenAutoNLU: Open Source AutoML Library for NLU
- 현재글 : [논문리뷰] Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training
- 다음글 [논문리뷰] Recursive Think-Answer Process for LLMs and VLMs