[논문리뷰] German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German이 논문은 독일어 텍스트를 다양한 독해 수준에 맞춰 재작성하는 Readability-Controlled Paraphrasing 분야의 중요한 격차를 해소하고자 합니다.#Review#Text Simplification#Paraphrasing#Readability Control#German NLP#Dataset Generation#LLM Distillation#Multi-level Text Generation#Accessibility2025년 8월 26일댓글 수 로딩 중
[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.#Review#German Commons#Large Language Models#Training Data#Openly Licensed Text#Data Curation#German NLP#Corpus Construction#Quality Filtering2025년 10월 17일댓글 수 로딩 중