[논문리뷰] LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?본 논문은 최신 LLM 기반 Search Agents가 실제로 검색을 통해 지식을 발견하는지, 아니면 기존에 알고 있는 지식을 확인하는 용도로만 웹을 활용하는지를 검증합니다.#Review#Search Agents#Intrinsic Knowledge Dependence (IKD)#Deep Search#Benchmark Design#Evidence-Led Discovery2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts컴팩트한 30억(3B) 파라미터 규모의 모델인 Nanbeige4.1-3B 를 개발하여 강력한 에이전트 행동, 코드 생성 및 일반적인 추론 능력을 동시에 달성하는 것을 목표로 합니다. 단일 소규모 언어 모델(SLM) 내에서 이러한 다재다능성을 입증하고, 3B 파라미터 모델의 잠재력을 재정의하고자 합니다.#Review#Small Language Model#Generalist AI#Reasoning#Code Generation#Agentic Behavior#Reinforcement Learning#Tool Use#Deep Search2026년 2월 16일댓글 수 로딩 중
[논문리뷰] BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents기존 벤치마크의 제한적인 태스크 복잡도, 정보 검색 가능성, 평가 차원의 문제를 해결하여 멀티모달 웹 브라우징 에이전트의 심층 검색 역량을 포괄적으로 평가할 수 있는 새롭고 검증 가능한 벤치마크를 개발하는 것을 목표로 합니다.#Review#Multimodal LLMs#Web Browsing Agents#Deep Search#Benchmark#Tool Use#Process Evaluation#Multimodal Reasoning#Open-world QA2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation#Large Language Models#Reasoning#Benchmark#Deep Search#Error Analysis#Scientific Problem Solving#Context Understanding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback본 논문은 복잡한 다중 문서 추론이 필요한 딥 서치(deep search) 질문-답변(QA) 쌍을 효율적으로 생성하는 문제를 다룹니다.#Review#Deep Search#Agentic Data Generation#LLMs#Execution Feedback#Reinforcement Learning#Question Answering#Synthetic Data2026년 1월 26일댓글 수 로딩 중
[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.#Review#Multimodal Browsing#AI Agents#Benchmark#Vision-Language Models#Reasoning#Tool Use#Deep Search2025년 8월 20일댓글 수 로딩 중
[논문리뷰] HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches이 논문은 기업 환경에서 로컬(사내 문서/지식 그래프) 및 웹 지식 소스 를 동시에 활용하는 딥 서치 시스템의 필요성에 주목합니다.#Review#Hierarchical Reinforcement Learning#Deep Search#Multi-source RAG#Agentic AI#Knowledge Integration#Enterprise Search#Large Reasoning Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search본 논문은 다중 에이전트 LLM 시스템에서 발생하는 복잡한 다중 턴 심층 탐색 시나리오 의 실패에 대한 정확한 원인 추론(failure attribution) 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Multi-Agent Systems#Failure Tracing#Root Cause Analysis#Information Dependency Graph#Reinforcement Learning#Deep Search2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics논문은 멀티-홉 딥 서치 태스크에서 RAG 시스템 및 웹 에이전트 평가의 기존 한계를 해결하고자 합니다.#Review#Deep Search#Multi-hop Reasoning#Evaluation Benchmark#Retrieval-Augmented Generation#Web Agents#Diagnostic Metrics#Knowledge Utilization#Hint-Free Questions2025년 10월 8일댓글 수 로딩 중