[논문리뷰] Adapting Multilingual Embedding Models to Turkish via Cross-Lingual Tokenizer Surgery and Offline Distillation본 연구는 기존의 Multilingual Embedding Models가 Turkish와 같은 저자원(Low-resource) 언어에서 충분한 성능을 발휘하지 못하는 구조적 한계를 해결하고자 한다.#Review#Multilingual Embedding Models#Turkish#Tokenizer Surgery#Offline Distillation#Cross-Lingual Transfer#Semantic Search2026년 6월 1일댓글 수 로딩 중
[논문리뷰] LLM2Vec-Gen: Generative Embeddings from Large Language Models기존 입력 중심의 텍스트 임베딩 방식은 다양한 입력이 유사한 출력으로 매핑되어야 하는 '입력-출력 격차' 문제와 LLM의 안전성 및 추론 능력 전이의 한계를 가집니다.#Review#Large Language Models#Text Embeddings#Generative AI#Self-Supervised Learning#Knowledge Distillation#Semantic Search#Retrieval-Augmented Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Semantic Search over 9 Million Mathematical Theorems본 논문은 기존 검색 도구가 논문 단위로만 작동하여 특정 수학적 정리, 보조 정리, 명제 검색이 어려운 문제를 해결하고자 합니다. 대규모 수학적 정리 코퍼스에 대한 시맨틱 검색 시스템 을 구축하여, 연구자와 AI 에이전트가 특정 수학적 지식을 효율적으로 찾을 수 있도록 지원하는 것을 목표로 합니다.#Review#Semantic Search#Theorem Retrieval#LLMs#Dense Retrieval#Mathematical Information Retrieval#Vector Embeddings#Mathematical Dataset#RAG2026년 2월 5일댓글 수 로딩 중