#German NLP

2개의 포스트

[논문리뷰] German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German

이 논문은 독일어 텍스트를 다양한 독해 수준에 맞춰 재작성하는 Readability-Controlled Paraphrasing 분야의 중요한 격차를 해소하고자 합니다.

#Review #Text Simplification #Paraphrasing #Readability Control #German NLP #Dataset Generation #LLM Distillation #Multi-level Text Generation #Accessibility

2025년 8월 26일

[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.

#Review #German Commons #Large Language Models #Training Data #Openly Licensed Text #Data Curation #German NLP #Corpus Construction #Quality Filtering

2025년 10월 17일