[논문리뷰] K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts본 논문은 최신 Frontier 모델들이 Agentic Capability 평가로 패러다임을 전환하고 있음에도 불구하고, 한국어 환경에 특화된 브라우징 에이전트 벤치마크가 부재하다는 문제 의식에서 출발합니다.#Review#Web Browsing Agent#Korean Contexts#Agentic Benchmark#Information Retrieval#Multi-hop Reasoning#Synthetic Data Generation2026년 6월 1일댓글 수 로딩 중
[논문리뷰] LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards본 논문은 기존 long-context 강화학습이 가진 데이터의 낮은 난이도와 보상 신호의 희소성(Sparsity) 문제를 해결하고자 합니다.#Review#Long-Context#Reinforcement Learning#Rubric Reward#Search Agent Trajectories#Tiered Distractors#Multi-hop Reasoning2026년 5월 31일댓글 수 로딩 중
[논문리뷰] PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents본 논문은 기존 GraphRAG 시스템이 직면한 정적 온톨로지와 비효율적인 그래프 탐색 알고리즘의 한계를 극복하기 위해 PAI-2를 제안합니다. 기존의 모델들은 주로 노드 단위의 단순 검색에 의존하여 다중 홉(multi-hop) 추론 능력이 제한적이거나 도메인 적응성이 낮다는 문제를 가지고 있습니다.#Review#GraphRAG#Search Planning#Graph Traversal#Knowledge Graph#LLM Agents#Multi-hop Reasoning2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation본 논문은 기존의 text-based iRAG 시스템이 겪는 Coarse-grained attribution과 Visual semantic loss 문제를 해결하기 위해 고안되었습니다.#Review#Iterative Retrieval-Augmented Generation#Visual Attribution#Vision-Language Models#Pixel-level Grounding#Multi-hop Reasoning2026년 5월 5일댓글 수 로딩 중
[논문리뷰] MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M TokensLarge Language Models (LLMs)는 다양한 분야에서 뛰어난 능력을 보였지만, 수백만 토큰 규모의 장기적이고 세밀한 기억(long-term, fine-grained memory retention)을 처리하는 데에는 여전히 큰 어려움에 직면해 있습니다.#Review#Memory Sparse Attention#Long-Context LLMs#Efficient Memory#End-to-End Trainable#KV Cache Compression#Rotary Positional Embedding#Multi-hop Reasoning#Scalability2026년 3월 26일댓글 수 로딩 중
[논문리뷰] Deep Tabular Research via Continual Experience-Driven ExecutionLarge language models (LLMs)는 구조화된 데이터에 대한 reasoning에서 상당한 능력을 보여주었지만, hierarchical 및 bidirectional header , merged cell , non-canonical layout 을 포함하는 unstructured table에 대한 complex long-horizon analytical task 에서는 어려움을 겪습니다.#Review#Deep Tabular Research#LLM Agents#Tabular Reasoning#Continual Learning#Experience-Driven Execution#Multi-hop Reasoning#Unstructured Tables2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning대규모 언어 모델(LLMs)이 직면한 긴 컨텍스트 처리의 문제를 해결하는 것이 목표입니다. 특히 연산 비용 증가 , 정보 망각 , 그리고 RAG(Retrieval-Augmented Generation)의 컨텍스트 단편화 와 같은 한계를 극복하며, 효율적인 긴 컨텍스트 추론 프레임워크를 제시하고자 합니다.#Review#Long Context Reasoning#Memory Compression#Reinforcement Learning#Large Language Models (LLMs)#Inference Efficiency#Dynamic Recall#KV-Cache#Multi-hop Reasoning2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation본 논문은 기존 그래프 기반 RAG(Retrieval-Augmented Generation) 모델들이 겪는 'Static Graph Fallacy' 문제를 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Knowledge Graphs#Graph Traversal#Context-Aware Retrieval#Personalized PageRank#Multi-hop Reasoning#Semantic Drift Mitigation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning본 논문은 기존 비디오 질의응답 벤치마크의 한계, 즉 폐쇄된 증거 설정과 텍스트 기반 검색에 의존하는 문제점을 해결하고자 합니다.#Review#Video Question Answering#Open-domain Search#Multimodal LLMs#Agentic AI#Benchmark#Video Understanding#Multi-hop Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Dr. Zero: Self-Evolving Search Agents without Training Data본 논문은 기존 멀티턴 검색 에이전트의 데이터 없는 자기 진화 과정에서 발생하는 제한적인 질문 다양성과 다단계 추론 및 도구 사용에 필요한 막대한 컴퓨팅 자원 문제를 해결하는 것을 목표로 합니다.#Review#Self-Evolution#Search Agents#Large Language Models (LLMs)#Data-Free Learning#Reinforcement Learning (RL)#Hop-Grouped Relative Policy Optimization (HRPO)#Question Answering#Multi-hop Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Multi-hop Reasoning via Early Knowledge Alignment본 논문은 복잡한 다중 홉(multi-hop) 질문을 처리하는 반복적 RAG(Iterative RAG) 시스템 의 비효율적인 검색 및 추론 문제, 특히 초기 계획 단계에서의 '계획 실패(plan failure)'를 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation (RAG)#Multi-hop Reasoning#Reinforcement Learning (RL)#Knowledge Alignment#Iterative RAG#Entropy Analysis#Plan Failure2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Step-DeepResearch Technical Report본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.#Review#Deep Research Agents#LLMs#Reinforcement Learning#Supervised Fine-tuning#Agentic AI#Multi-hop Reasoning#Benchmarking#Cost-effectiveness2025년 12월 23일댓글 수 로딩 중
[논문리뷰] TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data논문은 복잡한 질문, 노이즈가 있는 데이터, 제한된 수치 연산 능력으로 인해 대규모 언어 모델(LLM) 이 테이블 질의응답(TQA) 에서 저조한 성능을 보이는 문제를 해결합니다. 특히, 다단계(multi-hop) 수치 추론 과 지저분한 테이블 데이터 처리의 어려움을 극복하여 LLM의 성능을 향상시키는 것을 목표로 합니다.#Review#Tabular Data#Numerical Reasoning#Large Language Models (LLMs)#Table Question Answering (TQA)#Program-of-Thoughts (PoT)#Data Sanitization#Query Decomposition#Multi-hop Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?이 논문은 현재 문서 검색 증강 생성(RAG) 시스템 의 평가 벤치마크가 실제 세계의 복잡성과 한계를 제대로 반영하지 못하는 문제점을 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Multimodal LLMs#Benchmark Evaluation#Document Understanding#Multi-hop Reasoning#Information Retrieval#Evaluation Dataset2025년 8월 8일댓글 수 로딩 중
[논문리뷰] ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall대규모 언어 모델(LLMs)의 지식 편집(KE) 과정에서 다중 홉 사실 회상(multi-hop factual recall) 성능이 크게 저하되는 문제를 해결하고자 합니다.#Review#Knowledge Editing#LLMs#Multi-hop Reasoning#Mechanistic Interpretability#Neuron-level Attribution#Factual Recall#Transformer Networks2025년 10월 13일댓글 수 로딩 중
[논문리뷰] When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs본 논문은 Long-Context Language Models (LCLMs) 이 방대한 문맥을 처리할 수 있음에도 불구하고, 복잡한 다중 홉(multi-hop) 추론을 위해 증거를 효과적으로 구조화하고 연결하는 데 어려움 을 겪는 문제를 해결하고자 합니다.#Review#Long-Context LMs#Multi-hop Reasoning#Thought Templates#Retrieval-Augmented Generation#Natural Language Feedback#Knowledge-intensive QA#Reasoning Reuse2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics논문은 멀티-홉 딥 서치 태스크에서 RAG 시스템 및 웹 에이전트 평가의 기존 한계를 해결하고자 합니다.#Review#Deep Search#Multi-hop Reasoning#Evaluation Benchmark#Retrieval-Augmented Generation#Web Agents#Diagnostic Metrics#Knowledge Utilization#Hint-Free Questions2025년 10월 8일댓글 수 로딩 중