[논문리뷰] Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning본 논문은 LLM pre-training의 데이터 혼합 전략이 단일 최적화 관점에만 치중되어, 복잡하고 동적인 학습 과정을 충분히 반영하지 못하는 문제를 해결합니다.#Review#Large Language Models#Deep Reinforcement Learning#Online Data Mixing#Reward Shaping#Multi-Objective Optimization#Curriculum Learning#Training Efficiency2026년 6월 23일댓글 수 로딩 중