[논문리뷰] K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts본 논문은 최신 Frontier 모델들이 Agentic Capability 평가로 패러다임을 전환하고 있음에도 불구하고, 한국어 환경에 특화된 브라우징 에이전트 벤치마크가 부재하다는 문제 의식에서 출발합니다.#Review#Web Browsing Agent#Korean Contexts#Agentic Benchmark#Information Retrieval#Multi-hop Reasoning#Synthetic Data Generation2026년 6월 1일댓글 수 로딩 중
[논문리뷰] GrepSeek: Training Search Agents for Direct Corpus Interaction본 논문은 기존의 retrieval-augmented agentic search 시스템이 pre-computed index와 retriever에 의존함으로써 발생하는 한계를 해결하고자 합니다.#Review#Direct Corpus Interaction#Search Agent#Reinforcement Learning#Sharded-Parallel Execution#Information Retrieval#Agentic Search2026년 5월 31일댓글 수 로딩 중
[논문리뷰] MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading본 논문은 기존 long-context reasoning 모델들이 겪는 '정보의 영구적 손실'과 '무분별한 검색으로 인한 노이즈 유입' 문제를 해결하기 위해 MemReread를 제안한다. 기존 retrieval 기반 에이전트는 검색 쿼리의 부정확성과 불필요한 검색으로 인해 핵심 신호가 희석되는 한계를 가진다 .#Review#Long-Context Reasoning#Agentic Memory#Rereading#Reinforcement Learning#GRPO#Information Retrieval#Contextual Inference2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Dual-View Training for Instruction-Following Information Retrieval본 논문은 기존의 instruction-aware retrievers가 지시문이 변경될 때 적절히 대응하지 못하고, 표면적인 쿼리-문서 유사도에 의존하여 구체적인 제약 조건을 무시하는 문제를 해결하고자 한다. Weller et al.#Review#Instruction-Following#Information Retrieval#Dual-View Training#Polarity Reversal#Contrastive Learning2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers본 논문은 코드 스위칭 검색 시스템의 성능 평가를 위해 인간이 주석을 단 CSR-L 벤치마크를 구축하고, 11개 작업을 포함하는 CS-MTEB를 통해 그 영향력을 정량적으로 분석하였다. 실험 결과, 쿼리 내 코드 스위칭만으로도 강력한 다국어 모델을 포함한 대부분의 시스템에서 유의미한 성능 저하가 발생함이 확인되었다.#Review#Information Retrieval#Code-Switching#Benchmark#Embedding Models#Robustness#Late-Interaction#Lexicon-Based Adaptation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval본 논문은 teacher 모델의 score 분포를 균등하게 유지하는 Stratified Sampling을 제안합니다. 이 방법은 전체 score 범위 내에서 사전에 정의된 quantile anchors에 가장 근접한 문서들을 선택하여 학습 데이터를 구성함으로써, 특정 점수대에 편향되지 않은 포괄적인 데이터 표본을 확보합니다 .#Review#Knowledge Distillation#Dense Retrieval#Stratified Sampling#Score Distribution#Information Retrieval#Generalization2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Legal RAG Bench: an end-to-end benchmark for legal RAG법률 RAG 시스템의 종단 간(end-to-end) 성능을 평가하기 위한 고품질 벤치마크 및 평가 방법론이 부족하다는 문제점을 해결하고자 합니다.#Review#Retrieval-Augmented Generation (RAG)#Legal AI#Benchmark#Evaluation Methodology#Embedding Models#Large Language Models (LLMs)#Error Decomposition#Information Retrieval2026년 3월 2일댓글 수 로딩 중
[논문리뷰] CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era대규모 언어 모델(LLM)이 생성하는 그럴듯하지만 실제로는 존재하지 않는 참고문헌 환각(hallucinated references) 문제를 해결하는 것을 목표로 합니다.#Review#LLM Hallucination#Citation Verification#Multi-Agent System#Benchmark#Fact Checking#Scientific Integrity#Information Retrieval#Qwen3-VL2026년 3월 1일댓글 수 로딩 중
[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research Agents본 논문은 심층 연구 에이전트 워크플로우에서 LLM 기반 검색기 가 얼마나 효과적으로 기여할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.#Review#Deep Research Agents#Scientific Literature Retrieval#LLM-based Retrievers#Benchmarking#Test-time Scaling#Information Retrieval#Query Decomposition#RAG2026년 2월 5일댓글 수 로딩 중
[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.#Review#Reinforcement Learning#Large Language Models#Scientific QA#Information Retrieval#Verifiable Rewards#Biomedical Domain#Search Agents#Dataset Generation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents이 논문은 AI 에이전트가 복잡한 다단계 정보 탐색 작업 에서 포괄적인 답변 목록 을 생성하는 능력을 평가하기 위한 새로운 벤치마크인 DeepSearchQA 를 소개합니다.#Review#AI Agents#Deep Research#Benchmark#Information Retrieval#Comprehensiveness#Multi-step Reasoning#Evaluation#LLM-as-a-Judge2026년 1월 29일댓글 수 로딩 중
[논문리뷰] STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion이 논문은 자연어 질의에 대한 테이블 검색(Table Retrieval) 과정에서 발생하는 비정형 질의와 정형 테이블 간의 심층적인 의미적 불일치 및 긴 테이블 처리 시 토큰 길이 제한 문제를 해결하는 것을 목표로 합니다.#Review#Table Retrieval#Semantic Representation#K-means Clustering#Weighted Fusion#Large Language Models#Query Generation#Information Retrieval2026년 1월 26일댓글 수 로딩 중
[논문리뷰] XR: Cross-Modal Agents for Composed Image RetrievalAI 시대의 Composed Image Retrieval (CIR)에서 기존 유사성 기반 패러다임의 한계를 극복하고, 레퍼런스 이미지와 텍스트 수정 사항을 통합하는 데 필요한 교차-모달 추론 능력 을 향상시키는 것이 목표입니다.#Review#Composed Image Retrieval#Cross-Modal Agents#Multimodal Reasoning#Training-free Framework#Information Retrieval#Agentic AI#Progressive Retrieval2026년 1월 21일댓글 수 로딩 중
[논문리뷰] SmartSearch: Process Reward-Guided Query Refinement for Search Agents대규모 언어 모델(LLM) 기반 검색 에이전트의 중간 검색 쿼리 품질이 낮아 예기치 않은 검색 결과와 전체 성능 저하로 이어지는 문제를 해결하는 것입니다.#Review#Search Agent#Information Retrieval#Large Language Models#Process Reward#Query Refinement#Reinforcement Learning#Curriculum Learning2026년 1월 11일댓글 수 로딩 중
[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?본 논문은 대규모 언어 모델(LLM)의 컨텍스트 창 확장과 관련된 계산 및 메모리 오버헤드 문제를 해결하기 위해 Vision-Text Compression (VTC) 패러다임을 탐구합니다.#Review#Vision-Text Compression (VTC)#Long Context Understanding#Vision-Language Models (VLMs)#Benchmark#Information Retrieval#Associative Reasoning#Multimodal AI2025년 12월 17일댓글 수 로딩 중
[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.#Review#Deep Research Agents#Evaluation Benchmark#Failure Taxonomy#Report Generation#Information Retrieval#Reasoning Resilience#Content Fabrication#AI Agents2025년 12월 1일댓글 수 로딩 중
[논문리뷰] TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval본 연구는 신경 임베딩 기반 정보 검색(IR) 시스템이 영어 중심의 아키텍처에서 뛰어난 성능을 보임에도 불구하고, 튀르키예어와 같이 형태론적으로 복잡하고 자원이 부족한 언어 에 대한 비교 가능한 발전이 부족하다는 문제의식에서 시작되었습니다.#Review#Information Retrieval#Turkish Language#Late-Interaction Models#ColBERT#Dense Retrieval#MUVERA#Benchmarking#Low-Resource NLP#Fine-tuning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation본 논문은 멀티모달 환경에서 쿼리 증강(query augmentation)으로 인한 과도한 임베딩 지연 시간 과 일부 쿼리에서의 성능 저하 문제를 해결하고, 쿼리 증강의 효과를 높이는 것을 목표로 합니다.#Review#Multimodal Embedders#Query Augmentation#Adaptive Learning#Multimodal LLM#Information Retrieval#Generative AI#Embedding Latency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings본 논문은 기존의 멀티모달 대규모 언어 모델(MLLMs) 기반 임베딩 모델 이 판별적(discriminative)이라는 한계를 해결하고, 추론 중심의 생성 패러다임의 이점을 활용하는 것을 목표로 합니다.#Review#Multimodal Embeddings#Generative AI#Reasoning#Reinforcement Learning#MLLMs#Supervised Fine-tuning#Information Retrieval#Unified Embeddings2025년 11월 9일댓글 수 로딩 중
[논문리뷰] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents본 논문은 복잡한 정보 탐색과 다단계 웹 탐색을 요구하는 장기 웹 에이전트 를 훈련하기 위한 핵심 과제인 고품질 훈련 데이터 부족 문제 를 해결하고자 합니다.#Review#Web Agents#Long-Horizon Reasoning#Large Language Models (LLMs)#Data Generation#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Web Navigation#Information Retrieval2025년 9월 9일댓글 수 로딩 중
[논문리뷰] NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings논문은 기존 NER(Named Entity Recognition) 시스템의 한계, 즉 고정된 유형 스키마와 대량의 레이블링 데이터 의존성을 극복하고자 합니다.#Review#Named Entity Retrieval#Zero-Shot Learning#Type-Aware Embeddings#Large Language Models (LLMs)#Contrastive Learning#Internal Representations#Information Retrieval2025년 9월 5일댓글 수 로딩 중
[논문리뷰] LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations언어 모델(LMs)이 사전 훈련 과정에서 지식 표현을 어떻게 형성하고 발전시키는지에 대한 내부 프로세스를 분석하는 것입니다.#Review#Language Models#Knowledge Acquisition#Pretraining Data#Entity Linking#Coreference Resolution#Information Retrieval#Model Analysis#Checkpoints2025년 9월 4일댓글 수 로딩 중
[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.#Review#Passage Ranking#Reasoning Models#Large Language Models#Data Synthesis#Reinforcement Learning#Listwise Reranking#Information Retrieval2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?이 논문은 현재 문서 검색 증강 생성(RAG) 시스템 의 평가 벤치마크가 실제 세계의 복잡성과 한계를 제대로 반영하지 못하는 문제점을 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Multimodal LLMs#Benchmark Evaluation#Document Understanding#Multi-hop Reasoning#Information Retrieval#Evaluation Dataset2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Enhanced Arabic Text Retrieval with Attentive Relevance Scoring아랍어 텍스트 검색에서 복잡한 형태학적 특성 과 다양한 방언 으로 인한 기존 검색 시스템의 한계를 극복하고, 질문과 문서 간의 의미론적 관련성을 더욱 효과적으로 모델링 하여 검색 성능과 순위 정확도를 향상시키는 것을 목표로 합니다.#Review#Arabic NLP#Dense Passage Retrieval#Attentive Relevance Scoring#Information Retrieval#Question Answering#Transformer Models#Semantic Matching2025년 8월 2일댓글 수 로딩 중
[논문리뷰] InteractComp: Evaluating Search Agents With Ambiguous Queries본 논문은 기존 검색 에이전트들이 사용자 질의를 완전하고 명확하다고 가정하지만, 실제 사용자들은 종종 불완전하고 모호한 질의로 시작하여 상호작용을 통한 명확화가 필요하다는 문제점을 제기합니다.#Review#Search Agents#Interactive AI#Ambiguous Queries#Benchmarking#Language Agents#Information Retrieval#Overconfidence#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker본 논문은 효율적인 검색과 효과적인 리스트와이즈 재랭킹 사이의 성능 격차를 해소하기 위해, 단일 텍스트 임베딩 모델을 확장하여 두 가지 기능을 모두 수행할 수 있는 통일된 프레임워크 E²RANK 를 제안합니다.#Review#Text Embedding#Listwise Reranking#Information Retrieval#Pseudo Relevance Feedback#Contrastive Learning#Multi-task Learning#Efficiency#LLM-based Ranking2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LLM-guided Hierarchical Retrieval기존 LLM 기반 정보 검색(IR) 시스템이 직면한 Retrieve-then-Rerank 패러다임의 초기 검색 단계 한계와 Generative Retrieval의 확장성 문제를 해결하는 것이 목표입니다.#Review#Information Retrieval#Large Language Models#Hierarchical Retrieval#Semantic Tree#Tree Traversal#Zero-shot Performance#Reasoning-based Retrieval#Computational Efficiency2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report본 연구는 클라우드부터 엣지 기기까지 모든 스케일에서 정보 검색을 지원하기 위해, 현대적인 아키텍처와 높은 효율성을 갖춘 소형 ColBERT 모델(mxbai-edge-colbert-v0) 을 개발하는 것을 목표로 합니다.#Review#ColBERT#Retrieval Models#Small Models#Distillation#Long Context#Edge AI#Information Retrieval#RAG2025년 10월 17일댓글 수 로딩 중
[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG본 논문은 문서 중심의 멀티모달 RAG(Retrieval-Augmented Generation) 시스템 평가를 위한 기존 벤치마크들의 한계(파편화된 평가, 단순화된 멀티모달 설정, 제한된 규모 및 도메인)를 해결하고자 합니다.#Review#Multimodal RAG#Document AI#Benchmark#Information Retrieval#Large Language Models#Multimodal Embeddings#PDF Processing#Question Answering2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models본 논문은 Large Language Models (LLMs)의 강력한 추론 능력이 검색(retrieval) 작업에서 충분히 활용되지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Sentence Embedding#Retrieval-Augmented Generation#Chain-of-Thought#Information Retrieval#Supervised Fine-tuning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation본 연구는 대규모 언어 모델(LLM)의 급속한 발전과 실세계의 변화가 기존 사실성 평가 벤치마크의 신뢰성을 저해하는 문제를 다룹니다.#Review#LLM Factuality Evaluation#Benchmark Aging#Temporal Misalignment#Information Retrieval#Question Answering#Evaluation Metrics#GPT-4o-mini#Qwen2.52025년 10월 9일댓글 수 로딩 중
[논문리뷰] Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context기존 연구에서 언어 모델(LM)이 인-컨텍스트(in-context) 엔티티 바인딩(entity binding)을 주로 위치 메커니즘 으로 수행한다고 보았으나, 엔티티 수가 증가하는 복잡한 시나리오에서는 이 메커니즘이 중간 위치에서 불안정해지는 'lost-in-the-middle' 문제를 발견했습니다.#Review#Language Models#In-Context Learning#Entity Binding#Mechanistic Interpretability#Causal Abstraction#Long-Context Reasoning#Positional Encoding#Information Retrieval2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs본 연구는 복잡하고 개방형의 장기적 정보 검색 및 합성 태스크에서 기존 오픈소스 DeepResearch 에이전트의 성능 한계를 극복하는 것을 목표로 합니다.#Review#DeepResearch Agents#Tool-integrated Reasoning#Reinforcement Learning#Information Retrieval#Information Synthesis#Multi-agent Self-play#Reward Shaping#LLM2025년 10월 8일댓글 수 로딩 중
[논문리뷰] TalkPlay-Tools: Conversational Music Recommendation with LLM Tool Calling본 논문은 기존 대규모 언어 모델(LLM) 기반 추천 시스템의 제한적인 추천 행동과 단일 검색 방법론의 한계를 극복하고자 합니다. 사용자의 복잡한 의도를 해석하고 다양한 데이터 소스를 통합하여 정교한 음악 추천을 제공하는 통합 검색-재순위화 파이프라인 을 목표로 합니다.#Review#Conversational Recommendation#LLM Tool Calling#Music Recommendation#Multimodal Retrieval#Information Retrieval#Retrieval-Reranking#Semantic IDs2025년 10월 6일댓글 수 로딩 중