[논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus본 논문은 저자원 언어 (특히 튀르키예어)에서 대규모 의미 관계 데이터셋을 효율적으로 생성하는 하이브리드 프로토콜 을 제시하고, 포괄적인 튀르키예어 의미 관계 코퍼스 를 구축하는 것을 목표로 합니다.#Review#Low-Resource NLP#Semantic Relations#Dataset Generation#Turkish Language#LLM#FastText Embeddings#Agglomerative Clustering#Synonyms#Antonyms#Co-hyponyms2026년 1월 20일댓글 수 로딩 중
[논문리뷰] TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval본 연구는 신경 임베딩 기반 정보 검색(IR) 시스템이 영어 중심의 아키텍처에서 뛰어난 성능을 보임에도 불구하고, 튀르키예어와 같이 형태론적으로 복잡하고 자원이 부족한 언어 에 대한 비교 가능한 발전이 부족하다는 문제의식에서 시작되었습니다.#Review#Information Retrieval#Turkish Language#Late-Interaction Models#ColBERT#Dense Retrieval#MUVERA#Benchmarking#Low-Resource NLP#Fine-tuning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China중국 내 소수 언어(티베트어, 위구르어, 몽골어)의 헤드라인 생성 을 위한 공개 데이터셋 및 벤치마크 부재 문제를 해결하고자 합니다. 이들 언어는 고유한 문자 체계와 자원 부족으로 인해 NLP 연구에서 소외되어 왔으며, 본 연구는 고품질 데이터셋을 제공하여 해당 분야의 발전을 촉진하는 것을 목표로 합니다.#Review#Headline Generation#Minority Languages#Low-Resource NLP#Dataset#Benchmark#Natural Language Generation#Chinese Minority Languages2025년 9월 15일댓글 수 로딩 중
[논문리뷰] The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP본 연구는 전 세계 언어의 거의 3분의 1을 차지함에도 불구하고 현대 NLP 기술에서 심각하게 소외된 아프리카 언어 의 기술적 격차를 해소하는 것을 목표로 합니다. 체계적인 데이터 수집, 모델 개발 및 역량 강화를 통해 저자원 아프리카 언어 NLP 를 발전시키고자 합니다.#Review#Low-Resource NLP#African Languages#Data Collection#Multilingual Models#Fine-Tuning#Speech Data#Text Data#Capacity Building2025년 10월 9일댓글 수 로딩 중