[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

2026년 2월 12일수정: 2026년 2월 12일

링크: 논문 PDF로 바로 열기

저자: Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen

핵심 연구 목표

논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다. 이러한 격차를 해소하기 위해, 타겟 벤치마크와 데이터 소스 풀이 주어졌을 때 LLM 적응을 위한 실행 가능한 데이터 파이프라인과 훈련 데이터셋을 포함하는 엔드-투-엔드 데이터 레시피 자동 생성 이라는 새로운 과제를 공식화하고 해결하는 것을 목표로 합니다.

핵심 방법론

제안하는 DataChef-32B 는 온라인 강화 학습(RL) 을 통해 최적의 데이터 레시피를 생성하는 정책을 최적화합니다. 특히, 다운스트림 모델 훈련의 비용과 지연을 해결하기 위해 Data Verifier 라는 강력한 LLM 기반의 프록시 보상 모델 을 도입하여 데이터 품질을 저비용으로 즉시 평가합니다. 또한, RL 훈련의 안정성과 탐색 효율성을 높이기 위해 감독 학습(SFT) 기반의 콜드 스타트 초기화 전략을 활용하여 고품질 데모 데이터셋으로 정책을 초기화합니다.

주요 결과

DataChef-32B 는 6가지 미공개 태스크에서 Gemini-3-Pro 와 유사한 데이터 레시피 생성 성능을 달성하며, 대부분의 태스크에서 개별 최적 소스 데이터셋을 능가하는 결과를 보여줍니다. 특히, 수학 도메인에서는 Qwen3-1.7B-Base 를 AIME'25 벤치마크에서 66.7% 까지 적응시키는 레시피를 생성하여 기존 전문가 큐레이션 데이터 대비 뛰어난 성능을 입증했습니다. 또한, Data Verifier 는 다운스트림 모델 성능과 평균 Pearson 상관 계수 0.59 의 강력하고 일관된 양의 상관관계를 보여, 그 효과를 검증했습니다.

AI 실무자를 위한 시사점

이 연구는 LLM 훈련을 위한 데이터 준비 과정의 자동화를 가속화하여, LLM 적응 효율성 을 크게 향상시킬 수 있는 실용적인 프레임워크를 제공합니다. Data Verifier 와 같은 비용 효율적인 프록시 보상 시스템 의 도입은 데이터 중심 AI 연구에서 수동 개입을 줄이고 스스로 진화하는 AI 시스템 개발의 새로운 가능성을 열어줍니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning
현재글 : [논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning
다음글 [논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies