#Online Data Mixing

1개의 포스트

[논문리뷰] Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

본 논문은 LLM pre-training의 데이터 혼합 전략이 단일 최적화 관점에만 치중되어, 복잡하고 동적인 학습 과정을 충분히 반영하지 못하는 문제를 해결합니다.

#Review #Large Language Models #Deep Reinforcement Learning #Online Data Mixing #Reward Shaping #Multi-Objective Optimization #Curriculum Learning #Training Efficiency

2026년 6월 23일