[논문리뷰] KletterMix: Climbing Toward High-Quality German Pretraining Data본 논문은 독일어 프리트레이닝 데이터의 낮은 품질과 부족한 문서화 문제를 해결하기 위해 KletterMix를 제안합니다. 기존의 독일어 데이터는 노이즈가 많은 웹 크롤링 기반이거나, 데이터 구조와 문서화 수준이 영어권 데이터에 비해 현저히 낮아 모델 성능 개선에 한계가 있었습니다.#Review#Pretraining Data#German Corpus#Machine Translation#Dataset Construction#Quality Estimation#COMETKiwi#Language Modeling2026년 6월 3일댓글 수 로딩 중