[논문리뷰] OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration대규모 언어 모델(LLM) 사전 훈련에서 고품질 데이터의 고갈 문제인 '데이터 장벽(Data Wall)'에 직면함에 따라, 기존의 비효율적이거나 최적화기 비인지적인 데이터 선택 방법의 한계를 해결하고자 합니다.#Review#Data Selection#Large Language Model#Pre-training#Optimizer-Induced Utility#Ghost Technique#CountSketch#Boltzmann Sampling2026년 2월 10일댓글 수 로딩 중