[논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

2026년 1월 20일수정: 2026년 1월 20일

링크: 논문 PDF로 바로 열기

저자: Ebubekir Tosun, Özay Ezerceli, Mehmet Emin Buldur, Mahmoud ElHussieni

핵심 연구 목표

본 논문은 저자원 언어 (특히 튀르키예어)에서 대규모 의미 관계 데이터셋을 효율적으로 생성하는 하이브리드 프로토콜 을 제시하고, 포괄적인 튀르키예어 의미 관계 코퍼스 를 구축하는 것을 목표로 합니다. 이는 기존 튀르키예어 NLP 자원의 제한된 규모와 도메인 커버리지 로 인해 발생하는 데이터 희소성 문제 를 해결하고자 합니다.

핵심 방법론

제안하는 방법론은 세 가지 주요 단계로 구성됩니다. 첫째, FastText 임베딩 을 사용하여 110,000개의 용어 벡터를 생성한 후 Agglomerative Clustering 을 적용하여 13,000개의 의미 클러스터를 형성합니다. 둘째, Gemini 2.5-Flash LLM 을 활용하여 클러스터 내에서 동의어, 반의어, 공하위어 관계를 자동으로 분류하고 레이블링하며, 이 과정은 약 $65 의 최소 비용으로 수행되었습니다. 마지막으로, 외부 튀르키예어 동의어 사전 에서 엄격하게 필터링된 16,000개 의 고정밀 쌍을 통합하여 데이터의 신뢰성을 강화합니다.

주요 결과

최종 데이터셋은 843,000개 의 고유한 튀르키예어 의미 쌍으로 구성되어, 기존 자원에 비해 10배 규모의 증가를 달성했습니다. 데이터셋의 유효성 검증을 위해, 임베딩 모델은 동의어 쌍에 대해 90% top-1 검색 정확도 를 기록했으며, 분류 모델은 90% F1-매크로 점수를 달성하여 데이터셋이 생산 품질의 의미 시스템 훈련에 유용함을 입증했습니다.

AI 실무자를 위한 시사점

이 연구는 저자원 언어 를 위한 확장 가능하고 비용 효율적인 의미 데이터셋 생성 방법론 을 제공하며, LLM의 데이터 증강 잠재력 을 효과적으로 활용하는 실용적인 접근 방식을 제시합니다. 공개된 데이터셋과 모델은 튀르키예어 NLP 응용 프로그램 개발에 중요한 자원이 될 것이며, 이 하이브리드 프로토콜은 FastText 임베딩 과 다국어 LLM 이 지원되는 다른 저자원 언어에도 쉽게 적용될 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification
현재글 : [논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus
다음글 [논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey