#Question Answering

22개의 포스트

[논문리뷰] PersonalAI: A Systematic Comparison of Knowledge Graph Storage and Retrieval Approaches for Personalized LLM agents

본 논문은 LLM 기반 에이전트의 개인화 과정에서 발생하는 장기 기억(Long-term memory) 관리의 복잡성과 구조적 한계를 해결하기 위해 구조화된 지식 그래프 메모리 프레임워크를 제안한다.

#Review #GraphRAG #Knowledge Graph #Personalized LLM Agents #Graph Traversal #Question Answering #Memory Framework

2026년 4월 23일

[논문리뷰] NanoKnow: How to Know What Your Language Model Knows

본 연구는 대규모 언어 모델(LLMs)이 지식을 어떻게 획득하고 활용하는지에 대한 근본적인 질문에 답하고자 합니다. 특히, LLM의 사전 훈련 데이터가 종종 '블랙 박스'로 남아있어 지식의 출처를 추적하기 어렵다는 문제를 해결하고, 파라미터 내 지식과 외부 지식의 상호작용을 명확히 이해하는 것을 목표로 합니다.

#Review #LLM Knowledge #Pre-training Data #Retrieval-Augmented Generation (RAG)#FineWeb-Edu #nanochat #Benchmarking #Question Answering #Data Attribution

2026년 2월 25일

[논문리뷰] SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback

본 논문은 복잡한 다중 문서 추론이 필요한 딥 서치(deep search) 질문-답변(QA) 쌍을 효율적으로 생성하는 문제를 다룹니다.

#Review #Deep Search #Agentic Data Generation #LLMs #Execution Feedback #Reinforcement Learning #Question Answering #Synthetic Data

2026년 1월 26일

[논문리뷰] When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

개인화된 대규모 언어 모델(LLM)이 사용자 만족도를 높이는 동시에 사실적 추론을 왜곡 하여 개인화 유도 환각(personalization-induced hallucinations) 을 발생시키는 현상을 이해하고 해결하는 것이 목표입니다.

#Review #Personalized LLMs #Hallucination Mitigation #Factual Reasoning #Representation Entanglement #Inference-time Steering #Question Answering #Factuality Preservation

2026년 1월 18일

[논문리뷰] Dr. Zero: Self-Evolving Search Agents without Training Data

본 논문은 기존 멀티턴 검색 에이전트의 데이터 없는 자기 진화 과정에서 발생하는 제한적인 질문 다양성과 다단계 추론 및 도구 사용에 필요한 막대한 컴퓨팅 자원 문제를 해결하는 것을 목표로 합니다.

#Review #Self-Evolution #Search Agents #Large Language Models (LLMs)#Data-Free Learning #Reinforcement Learning (RL)#Hop-Grouped Relative Policy Optimization (HRPO)#Question Answering #Multi-hop Reasoning

2026년 1월 12일

[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.

#Review #Table Recognition #Self-supervised Learning #Vision-Language Models #Reinforcement Learning #Question Answering #Data Augmentation #GRPO

2025년 12월 2일

[논문리뷰] Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

본 논문은 LLM 기반 시스템에서 지식 그래프(KG)의 내재적 품질과 추론 능력이 충분히 활용되지 못하고, 개방형 정보 추출(OIE) KGs가 구조적 엄격성과 온톨로지 정합성 측면에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Knowledge Graphs #Large Language Models #Information Extraction #Wikidata Ontology #Question Answering #Entity Normalization #Retrieval Augmented Generation

2025년 12월 1일

[논문리뷰] IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

대규모 언어 모델(LLMs)이 고자원 다국어 작업에서 우수한 성능을 보이지만, 저자원 및 초저자원 인디언 언어에 대한 평가는 심각하게 부족합니다. 본 연구는 이러한 언어에서의 LLM 성능 한계를 체계적으로 평가하고, 교차 언어 전이 학습의 효과를 밝히는 데 목적이 있습니다.

#Review #Low-resource Languages #Indic Languages #LLM Evaluation #Benchmark #Multilingual LLMs #Question Answering #Cross-lingual Transfer

2025년 12월 1일

[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of Agents

본 논문은 LLM 및 AI 에이전트의 장기 학습 및 지속적인 상호작용을 가능하게 하는 메모리 시스템에서 발생하는 기억 환각(memory hallucinations) 문제를 해결하고자 합니다.

#Review #Memory Systems #AI Agents #Hallucination Detection #Evaluation Benchmark #Long-term Memory #Memory Extraction #Memory Updating #Question Answering

2025년 11월 10일

[논문리뷰] Improving Context Fidelity via Native Retrieval-Augmented Reasoning

논문은 대규모 언어 모델(LLMs)이 제공된 컨텍스트에 대한 충실도(context fidelity)를 유지하지 못하고, 질문에 대한 답변 생성 시 일관성 없는 결과를 내거나 환각(hallucination)을 일으키는 문제를 해결하고자 합니다.

#Review #Context Fidelity #Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Hallucination #Question Answering #In-context Retrieval #Curriculum Learning

2025년 9월 18일

[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Large Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #LLM Factuality #Parametric Knowledge #Benchmark #Question Answering #Data Curation #Evaluation Metrics #Hallucination Mitigation #Large Language Models

2025년 9월 10일

[논문리뷰] On Robustness and Reliability of Benchmark-Based Evaluation of LLMs

본 논문은 대규모 언어 모델(LLM)이 문맥에 따라 재구성된 질문에 얼마나 강건한지 를 평가하고, 현재 사용되는 벤치마크 기반 평가가 모델의 실제 능력을 얼마나 신뢰성 있게 측정하는지 조사하는 것을 목표로 합니다.

#Review #LLM Evaluation #Model Robustness #Benchmark Reliability #Paraphrasing #Linguistic Variability #Generalization #Question Answering

2025년 9월 8일

[논문리뷰] Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

본 논문은 장시간 비디오 이해의 난제를 해결하고자 합니다.

#Review #Long Video Understanding #Reinforcement Learning #Multi-Turn Reasoning #MLLMs #Video Segment Selection #Bi-level Reward #Question Answering

2025년 9월 5일

[논문리뷰] Open Data Synthesis For Deep Research

본 논문은 기존 벤치마크들이 '심층 연구(Deep Research)' 작업을 위한 충분한 구조적 깊이를 제공하지 못하는 한계를 해결하고자 합니다. 특히, 복잡한 질문을 하위 문제로 분해하고, 다단계 추론을 조율하며, 다양한 출처에서 증거를 합성해야 하는 작업에 초점을 맞춥니다.

#Review #Data Synthesis #Deep Research #Hierarchical Constraint Satisfaction Problems #Large Language Models #Agentic AI #Reinforcement Learning #Question Answering

2025년 9월 4일

[논문리뷰] ST-Raptor: LLM-Powered Semi-Structured Table Question Answering

본 논문은 금융 보고서나 의료 기록과 같이 유연하고 복잡한 레이아웃(계층적 헤더, 병합된 셀 등)을 가진 반정형 테이블(semi-structured table) 에 대한 질의응답(QA) 문제를 해결하는 것을 목표로 합니다.

#Review #Semi-structured Tables #Question Answering #LLMs #Hierarchical Orthogonal Tree #Table Layout Understanding #Pipeline Generation #Verification Mechanism

2025년 8월 26일

[논문리뷰] Enhanced Arabic Text Retrieval with Attentive Relevance Scoring

아랍어 텍스트 검색에서 복잡한 형태학적 특성 과 다양한 방언 으로 인한 기존 검색 시스템의 한계를 극복하고, 질문과 문서 간의 의미론적 관련성을 더욱 효과적으로 모델링 하여 검색 성능과 순위 정확도를 향상시키는 것을 목표로 합니다.

#Review #Arabic NLP #Dense Passage Retrieval #Attentive Relevance Scoring #Information Retrieval #Question Answering #Transformer Models #Semantic Matching

2025년 8월 2일

[논문리뷰] CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs

본 연구는 소규모 언어 모델(BabyLMs)이 명령어 튜닝(Instruction Tuning)을 통해 성능 향상을 얻을 수 있는지 탐구합니다.

#Review #Instruction Tuning #BabyLMs #Small-scale LMs #Curriculum Learning #Conversational AI #Question Answering #Zero-shot Evaluation #SuperGLUE

2025년 10월 31일

[논문리뷰] BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

이 논문은 기존 벤치마크의 Anglocentric 및 도메인-불가지론적 한계를 해결하고, 인도 중심의 지식 시스템에 대한 평가 부족 문제를 다룹니다.

#Review #Large Language Models (LLMs)#Benchmark #Indic Languages #Multilingual Evaluation #Domain-Specific AI #India-centric Knowledge Systems #Zero-Shot Learning #Question Answering

2025년 10월 30일

[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

본 논문은 문서 중심의 멀티모달 RAG(Retrieval-Augmented Generation) 시스템 평가를 위한 기존 벤치마크들의 한계(파편화된 평가, 단순화된 멀티모달 설정, 제한된 규모 및 도메인)를 해결하고자 합니다.

#Review #Multimodal RAG #Document AI #Benchmark #Information Retrieval #Large Language Models #Multimodal Embeddings #PDF Processing #Question Answering

2025년 10월 10일

[논문리뷰] A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

본 논문은 기존 QA 모델들이 여러 유효한 답변을 허용하는 모호한 질문에 어려움을 겪으며, 단일 정답을 가정하는 벤치마크가 잘못된 훈련 신호를 제공한다는 문제를 해결하고자 합니다.

#Review #Question Answering #Reinforcement Learning #Large Language Models #Ambiguity Resolution #Multi-hop QA #Automated Data Generation #Tool-Augmented LLMs #AnsF1 Reward

2025년 10월 10일

[논문리뷰] When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

본 연구는 대규모 언어 모델(LLM)의 급속한 발전과 실세계의 변화가 기존 사실성 평가 벤치마크의 신뢰성을 저해하는 문제를 다룹니다.

#Review #LLM Factuality Evaluation #Benchmark Aging #Temporal Misalignment #Information Retrieval #Question Answering #Evaluation Metrics #GPT-4o-mini #Qwen2.5

2025년 10월 9일

[논문리뷰] Knowledge Homophily in Large Language Models

본 논문은 대규모 언어 모델(LLM)이 인간의 뇌와 유사하게 지식 동질성(Knowledge Homophily) 패턴을 보이는지 탐구하고, 이를 통해 LLM 내 지식의 구조적 조직을 이해하며 지식 주도형(knowledge-intensive) 태스크 의 효율성을 개선하는 것을 목표로 합니다.

#Review #LLM #Knowledge Homophily #Graph Neural Networks #Knowledge Graph #Knowledge Injection #Question Answering #Fine-tuning #Knowledge Retrieval

2025년 10월 1일