[논문리뷰] Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling본 논문은 데이터가 제한된 고자원 비영어권 언어(독일어 등)의 LLM 학습에서 발생하는 '데이터 다양성 확보'와 '데이터 품질 강화' 사이의 전략적 딜레마를 해결하고자 한다.#Review#Large Language Models#Data Filtering#Sample Efficiency#German Language Modeling#Multi-Epoch Training#Semantic Density#High-Signal Data2026년 5월 4일댓글 수 로딩 중