[논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

2026년 4월 2일수정: 2026년 4월 2일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Hao Liang, Zhengyang Zhao, Meiyi Qiang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Data-Centric Dynamic Training : 모델 파라미터뿐만 아니라 학습 데이터의 선택, 구성(mixture), 가중치(weighting)를 최적화 과정에서 실시간으로 조정하는 학습 패러다임.
DataFlex : LLaMA-Factory를 기반으로 하여 다양한 데이터 중심 학습 알고리즘을 통합하고 배포하는 일관된 인터페이스를 제공하는 오픈소스 프레임워크.
Select/Mix/Weight Trainer : DataFlex에서 각각 데이터 선택, 도메인 혼합비 조정, 샘플 단위 가중치 업데이트를 담당하는 3가지 핵심 트레이너 추상화 모델.
Online/Offline Methods : 학습 도중 모델의 상태 변화에 따라 즉각적으로 데이터 결정을 수행하는 방식(Online)과 학습 시작 전 데이터 전략을 확정하는 방식(Offline)을 지칭.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LLM 학습의 효율성과 성능을 결정짓는 데이터 최적화 알고리즘들이 파편화되어 있고 상호 호환되지 않는 문제를 해결하고자 합니다. 기존의 데이터 선택, 혼합, 재가중치 기법들은 각기 다른 코드베이스와 인터페이스를 사용하여 재현성과 공정한 비교가 매우 어렵습니다 [Figure 1]. 이러한 독립적인 연구 방식은 연구자들이 새로운 알고리즘을 확장하거나 현대적인 대규모 학습 인프라에 적용하는 데 큰 제약으로 작용합니다. 따라서 모델의 중간 신호(embedding, gradient 등)와 데이터 결정 프로세스를 유기적으로 연결하는 통합 시스템의 필요성이 대두되었습니다.

Figure 1: DataFlex의 전체 아키텍처

Figure 1 — DataFlex의 전체 아키텍처

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 LLaMA-Factory의 모델 관리 및 최적화 기능을 보존하면서, 데이터 최적화 전략을 모듈형으로 통합한 DataFlex 를 제안합니다. DataFlex 는 7개의 데이터 선택, 2개의 데이터 혼합, 1개의 재가중치 알고리즘을 통합하여 단일 인터페이스 하에서 연구 및 실행할 수 있도록 설계되었습니다 [Figure 2]. 주요 실험 결과, 데이터 선택 알고리즘인 LESS 가 Mistral-7B backbone에서 정적(static) 전체 데이터 학습 대비 MMLU 성능을 5.8%p 개선하는 우수성을 보였습니다. 데이터 혼합 실험에서는 DoReMi 와 ODM 이 SlimPajama 말뭉치 학습 시 기본 도메인 비율 대비 MMLU 정확도와 말뭉치 단위 Perplexity를 모두 향상시켰습니다 [Table 2]. 특히 DataFlex 는 기존 LESS 구현체 대비 대규모 분산 학습 환경에서 57.13%의 학습 시간 단축을 달성하며 높은 시스템 효율성을 입증하였습니다 [Table 3].

Figure 2: DataFlex 설정 예시

Figure 2 — DataFlex 설정 예시

4. Conclusion & Impact (결론 및 시사점)

본 연구는 LLM 학습을 데이터 중심의 동적 프로세스로 전환하는 통일된 프레임워크인 DataFlex 를 성공적으로 구축하였습니다. 이 연구는 파편화된 데이터 중심 기법들을 하나의 아키텍처로 통합함으로써 연구 재현성을 크게 높이고, 대규모 학습 인프라와의 결합 가능성을 제시했습니다. DataFlex 의 모듈화된 설계를 통해 학계와 산업계는 데이터 최적화 알고리즘을 보다 효율적으로 비교하고 실제 모델 배포에 적용할 수 있을 것으로 기대됩니다.

Figure 3: 데이터 선택 성능 비교

Figure 3 — 데이터 선택 성능 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning
현재글 : [논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models
다음글 [논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data