[논문리뷰] OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

2026년 3월 31일수정: 2026년 3월 31일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

저자: Haiyue Song, Masao Utiyama

1. Key Terms & Definitions (핵심 용어 및 정의)

CPT (Continual Pre-training) : 기존에 학습된 LLM을 특정 언어나 도메인 데이터에 맞춰 추가로 학습시키는 적응 방식입니다.
Distribution Vector : base model에서 CPT 모델로 파라미터가 이동한 변화량(Δθ)을 의미하며, 해당 데이터셋이 모델에 끼친 영향을 압축적으로 표현합니다.
OptiMer : 분포 벡터들을 사후적으로 조합하여 최적의 merge weights를 Bayesian Optimization 으로 탐색하는 프레임워크입니다.
TPE (Tree-structured Parzen Estimator) : OptiMer에서 최적의 merge weight를 찾기 위해 사용하는 Bayesian Optimization 알고리즘으로, 탐색 효율이 높습니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

LLM의 도메인 및 언어 적응을 위해 CPT 를 수행할 때, 데이터의 혼합 비율(Mixture Ratio)은 매우 민감한 하이퍼파라미터입니다. 기존에는 이 비율을 학습 전에 고정해야 하며, 부적절할 경우 수주간의 GPU 연산 자원이 낭비되는 문제가 있었습니다.

기존 연구(DoReMi, RegMix 등)는 이를 개선하고자 했으나, 여전히 학습 전 비율 확정이 필수적이어서 사후 보정이 불가능합니다. 저자들은 이러한 제약을 극복하기 위해 학습 단계와 비율 선정 단계를 분리하는 새로운 패러다임을 제안합니다 [Figure 1].

Figure 1: Data Mix와 OptiMer 비교

Figure 1 — Data Mix와 OptiMer 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 각 데이터셋으로 독립적인 CPT 모델을 학습시키고, 여기서 Distribution Vector 를 추출합니다. 이후 TPE 를 활용하여 이 벡터들의 최적 결합 가중치를 사후적으로 최적화하는 OptiMer 를 제안합니다. 이 방식은 학습을 재실행할 필요 없이, 단일 벡터 풀 내에서 원하는 목적에 맞게 모델을 즉시 재구성할 수 있는 유연성을 제공합니다.

주요 실험 결과는 다음과 같습니다:

Gemma 3 27B 기반 실험에서 OptiMer 는 기존의 데이터 혼합(Data Mixing) 방식 대비 모든 데이터셋 조합에서 우수한 성능을 보였으며, 평균적으로 2.1~6.7 포인트 높은 성능을 기록했습니다.
검색 비용 측면에서 OptiMer 는 기존 데이터 혼합 방식보다 15~35배 빠른 속도를 보였습니다 [Figure 2].
분포 벡터들이 서로 거의 직교(Cosine Similarity 0.03~0.31)한다는 점을 발견하여 선형적 결합의 타당성을 입증했습니다 [Figure 3].

Figure 2: 데이터 혼합 대비 계산 비용 비교

Figure 2 — 데이터 혼합 대비 계산 비용 비교

Figure 3: 분포 벡터 간 코사인 유사도

Figure 3 — 분포 벡터 간 코사인 유사도

4. Conclusion & Impact (결론 및 시사점)

본 논문은 CPT 에서의 데이터 비율 선정이라는 고전적인 문제를 사후 최적화 문제로 재정의하였습니다. OptiMer 는 학습 자원을 효율적으로 사용하면서도 우수한 적응 성능을 보장하며, 단일 모델 벡터 풀을 통해 다양한 목적에 맞춘 모델을 유연하게 생성할 수 있는 실용적인 프레임워크를 제공합니다. 이는 향후 대규모 LLM 적응 과정에서 시간과 비용을 획기적으로 절감할 수 있는 중요한 기술적 진보로 평가됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models
현재글 : [논문리뷰] OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training
다음글 [논문리뷰] PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models