#Transformer Models

7개의 포스트

[논문리뷰] BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

본 연구는 생물의학 및 일반 도메인 정보 검색(IR) 시스템의 성능 향상을 목표로 합니다. 특히, 기존 방법론에서 어려움을 겪는 '하드 네거티브' 문서를 효과적으로 식별하고 활용하여, 밀집 검색 모델의 정밀도를 높이고 미묘한 의미적 차이를 학습할 수 있도록 하는 것을 핵심 과제로 삼습니다.

#Review #Dense Retrieval #Biomedical IR #Hard Negative Mining #Citation Networks #PubMed #Zero-shot Retrieval #Transformer Models

2025년 11월 11일

[논문리뷰] CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media

본 연구는 분산형 소셜 미디어 플랫폼인 Bluesky 에서 실시간으로 대규모 공개 담론을 분석하기 위한 확장 가능한 오픈 소스 프레임워크인 CognitiveSky 를 제안합니다.

#Review #Sentiment Analysis #Narrative Analysis #Decentralized Social Media #Bluesky #Transformer Models #Topic Modeling #Real-time Processing #Data Visualization

2025년 9월 16일

[논문리뷰] Limitations of Normalization in Attention Mechanism

본 연구는 어텐션 메커니즘에서 사용되는 정규화, 특히 소프트맥스(softmax) 의 근본적인 한계를 밝히는 것을 목표로 합니다.

#Review #Attention Mechanism #Normalization #Softmax #Transformer Models #Gradient Sensitivity #Token Separability #Context Length #GPT-2

2025년 8월 26일

[논문리뷰] Enhanced Arabic Text Retrieval with Attentive Relevance Scoring

아랍어 텍스트 검색에서 복잡한 형태학적 특성 과 다양한 방언 으로 인한 기존 검색 시스템의 한계를 극복하고, 질문과 문서 간의 의미론적 관련성을 더욱 효과적으로 모델링 하여 검색 성능과 순위 정확도를 향상시키는 것을 목표로 합니다.

#Review #Arabic NLP #Dense Passage Retrieval #Attentive Relevance Scoring #Information Retrieval #Question Answering #Transformer Models #Semantic Matching

2025년 8월 2일

[논문리뷰] Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

이 논문은 실시간 음성 에이전트를 위한 태국어 텍스트 전용 EOT(End-of-Turn) 감지 에 대한 최초의 체계적인 연구를 수행하는 것을 목표로 합니다.

#Review #End-of-Turn Detection #Thai NLP #Voice Agents #Real-time Inference #Transformer Models #Few-shot Learning #Fine-tuning #Latency Optimization

2025년 10월 7일

[논문리뷰] Optimal Scaling Needs Optimal Norm

이 논문은 대규모 언어 모델(LLM) 훈련에서 최적의 스케일링 을 달성하기 위한 하이퍼파라미터 전이(transfer)의 견고성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 옵티마이저가 명시적으로 노름을 최적화 할 때 모델 및 데이터 스케일 변화에 따라 하이퍼파라미터 스케일링 규칙이 어떻게 변하는지 규명하고자 합니다.

#Review #Optimal Scaling #Norm-Based Optimizers #Hyperparameter Transfer #Learning Rate Scaling #Batch Size Scaling #Transformer Models #Scion Optimizer #Large Language Models

2025년 10월 7일

[논문리뷰] Emergence of Linear Truth Encodings in Language Models

언어 모델(LM)에서 참/거짓 진술을 선형적으로 구분하는 '진실 부공간'이 왜, 그리고 어떻게 출현하는지 그 기계론적 원리 를 밝히는 것이 주요 목표입니다. 이는 LM의 환각 현상(hallucinations) 완화 에 기여할 수 있는 근본적인 이해를 제공하고자 합니다.

#Review #Language Models #Truth Encoding #Linear Subspaces #Mechanistic Interpretability #Transformer Models #Learning Dynamics #Truth Co-occurrence Hypothesis #Hallucinations

2025년 10월 24일