[논문리뷰] Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain본 논문은 터키어 법률 도메인에 특화된 언어 모델인 Mecellem 모델을 개발하여, 비영어권 및 전문 도메인(특히 터키어 법률)에서 대규모 언어 모델의 성능 저하 문제를 해결하는 것을 목표로 합니다. 이를 위해, 스크래치 학습된 인코더 모델과 지속적 사전 훈련(CPT)된 디코더 모델 두 가지 접근 방식을 제시합니다.#Review#Turkish Legal NLP#Domain Adaptation#ModernBERT#Continual Pre-training (CPT)#Embedding Models#Legal LLMs#Retrieval-Augmented Generation (RAG)#Curriculum Learning2026년 1월 25일댓글 수 로딩 중