#Turkish Language

2개의 포스트

[논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

본 논문은 저자원 언어 (특히 튀르키예어)에서 대규모 의미 관계 데이터셋을 효율적으로 생성하는 하이브리드 프로토콜 을 제시하고, 포괄적인 튀르키예어 의미 관계 코퍼스 를 구축하는 것을 목표로 합니다.

#Review #Low-Resource NLP #Semantic Relations #Dataset Generation #Turkish Language #LLM #FastText Embeddings #Agglomerative Clustering #Synonyms #Antonyms #Co-hyponyms

2026년 1월 20일

[논문리뷰] TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

본 연구는 신경 임베딩 기반 정보 검색(IR) 시스템이 영어 중심의 아키텍처에서 뛰어난 성능을 보임에도 불구하고, 튀르키예어와 같이 형태론적으로 복잡하고 자원이 부족한 언어 에 대한 비교 가능한 발전이 부족하다는 문제의식에서 시작되었습니다.

#Review #Information Retrieval #Turkish Language #Late-Interaction Models #ColBERT #Dense Retrieval #MUVERA #Benchmarking #Low-Resource NLP #Fine-tuning

2025년 11월 20일