[논문리뷰] Adapting Multilingual Embedding Models to Turkish via Cross-Lingual Tokenizer Surgery and Offline Distillation본 연구는 기존의 Multilingual Embedding Models가 Turkish와 같은 저자원(Low-resource) 언어에서 충분한 성능을 발휘하지 못하는 구조적 한계를 해결하고자 한다.#Review#Multilingual Embedding Models#Turkish#Tokenizer Surgery#Offline Distillation#Cross-Lingual Transfer#Semantic Search2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian대규모 언어 모델(LLM)의 영어 중심 편향 을 해결하고, 독일어, 영어, 바이에른어(Bavarian)를 지원하는 삼중 언어 기반 모델인 Llama-GENBA-10B 를 개발하는 것을 목표로 합니다.#Review#Multilingual LLM#Low-Resource Language#German#Bavarian Dialect#Cross-Lingual Transfer#Continuous Pretraining#Llama-3.1#Model Expansion2025년 9월 9일댓글 수 로딩 중
[논문리뷰] COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes대규모 언어 모델(LLM)이 비영어권, 특히 중국어 창의적 글쓰기에서 겪는 체계적인 결함(예: 예측 가능한 내러티브, 스타일 다양성 부족, 문화적 비정합성)을 해결하는 것을 목표로 합니다.#Review#Chinese Creative Writing#Process Supervision#LLM Training#Dataset Creation#Cross-Lingual Transfer#Narrative Logic#Linguistic Expression#Type-Token Ratio2025년 10월 17일댓글 수 로딩 중