#Training Data

1개의 포스트

[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.

#Review #German Commons #Large Language Models #Training Data #Openly Licensed Text #Data Curation #German NLP #Corpus Construction #Quality Filtering

2025년 10월 17일