[논문리뷰] QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation대규모 언어 모델(LLM)의 내부 신호(예: logits, 엔트로피)가 부정확한 예측에 대해 종종 높은 확신을 보이는 등 신뢰할 수 없다는 문제점을 해결하고자 합니다.#Review#Dynamic RAG#Hallucination Detection#Corpus Statistics#Uncertainty Quantification#Pre-training Data#LLM Calibration#Infini-gram#Multi-hop QA2025년 12월 22일댓글 수 로딩 중
[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs기존 벤치마크들이 규칙 기반 교란이나 짧은 캡션에 의존하여 미세한 이미지-텍스트 정렬 능력을 측정하는 데 한계가 있음을 지적하며, AlignBench 라는 새로운 벤치마크를 통해 VLM의 미세한 이미지-텍스트 정렬 능력 을 평가하는 것을 목표로 합니다.#Review#Image-Text Alignment#Multimodal Benchmarking#Hallucination Detection#Vision-Language Models#Synthetic Data Generation#Fine-Grained Analysis#Captioning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of Agents본 논문은 LLM 및 AI 에이전트의 장기 학습 및 지속적인 상호작용을 가능하게 하는 메모리 시스템에서 발생하는 기억 환각(memory hallucinations) 문제를 해결하고자 합니다.#Review#Memory Systems#AI Agents#Hallucination Detection#Evaluation Benchmark#Long-term Memory#Memory Extraction#Memory Updating#Question Answering2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement본 논문은 대규모 언어 모델(LLMs)이 자연어 설명(NLEs)을 생성할 때 내부의 매개변수 지식(Parametric Knowledge, PK) 과 외부의 문맥 지식(Context Knowledge, CK) 을 어떻게 통합하고 상호작용하는지 다단계에 걸쳐 분석하는 것을 목표로 합니다.#Review#LLMs#Knowledge Interaction#Parametric Knowledge#Contextual Knowledge#Subspace Disentanglement#NLE Generation#Hallucination Detection#Chain-of-Thought2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications대규모 언어 모델(LLMs)의 환각(hallucination) 문제를 해결하고, 특히 형태학적으로 복잡한 터키어 RAG(Retrieval-Augmented Generation) 애플리케이션 을 위한 효과적인 환각 탐지 모델을 개발하는 것이 목표입니다.#Review#Hallucination Detection#Retrieval Augmented Generation#Large Language Models#Turkish NLP#Token Classification#ModernBERT#Low-Resource Languages2025년 9월 23일댓글 수 로딩 중
[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.#Review#LLM Evaluation#Answer Verification#Reward Model#Benchmarking#Data Augmentation#Reinforcement Learning#Formula Verification#Hallucination Detection2025년 8월 6일댓글 수 로딩 중
[논문리뷰] When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포를 위한 핵심 과제인 환각(hallucination) 탐지를 목표로 합니다.#Review#Hallucination Detection#Multilingual LLMs#Span-Level Annotation#Synthetic Data Generation#Question Answering (QA)#Encoder Models#Uncertainty Quantification#GPT-4o2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Large Language Models Do NOT Really Know What They Don't Know본 논문은 대규모 언어 모델(LLMs)이 사실적 오류를 생성할 때 내부적으로 어떻게 처리하는지 기계적으로 분석하여, LLMs가 진정으로 '무엇을 모르는지 아는지' 여부를 밝히는 것을 목표로 합니다.#Review#LLMs#Hallucination Detection#Mechanistic Interpretability#Internal States#Knowledge Recall#Refusal Tuning#Factual Associations#Associated Hallucinations2025년 10월 17일댓글 수 로딩 중
[논문리뷰] HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation대규모 언어 모델(LLM)과 소형 언어 모델(SLM)이 RAG 애플리케이션에서 흔히 겪는 환각(Hallucination) 문제를 해결하고, 사용자 신뢰도와 설명 가능성을 저해하는 문제를 완화하는 것이 주요 목표입니다.#Review#Hallucination Detection#Retrieval-Augmented Generation (RAG)#Small Reasoning Model (SRM)#Preference Fine-tuning#ORPO#Evidence Grounding#Fact-checking2025년 10월 8일댓글 수 로딩 중