[논문리뷰] Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses본 연구는 기존 검색 에이전트들이 semantic 검색 결정과 복잡한 상태 관리(bookkeeping)를 동시에 수행함에 따라 발생하는 학습의 비효율성과 성능 저하 문제를 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Reinforcement Learning#Stateful Harness#Cognitive Offloading#Search Agents2026년 6월 1일댓글 수 로딩 중
[논문리뷰] LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?본 논문은 최신 LLM 기반 Search Agents가 실제로 검색을 통해 지식을 발견하는지, 아니면 기존에 알고 있는 지식을 확인하는 용도로만 웹을 활용하는지를 검증합니다.#Review#Search Agents#Intrinsic Knowledge Dependence (IKD)#Deep Search#Benchmark Design#Evidence-Led Discovery2026년 5월 27일댓글 수 로딩 중
[논문리뷰] DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents본 논문은 기존 Autoregressive 모델(ARM) 기반 검색 에이전트의 직렬 실행 구조로 인한 높은 레이턴시 문제를 해결하고, 동시에 Diffusion Large Language Model(dLLM) 의 취약한 추론 및 도구 호출 능력을 개선하여, dLLM을 효율적인 검색 에이전트 백본으로 활용하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Search Agents#Latency Reduction#P-ReAct#Agentic Post-training#Supervised Fine-Tuning#Preference Optimization#Parallel Decoding2026년 2월 10일댓글 수 로딩 중
[논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant기존 검색 에이전트 벤치마크들이 갖는 비현실적인 태스크 구성, 단일 정보 유형 집중, 정적 데이터로 인한 데이터 오염, 과정 수준 감독 부재 등의 한계를 극복하는 것을 목표로 합니다. 이를 위해 실제 정보 탐색 시나리오를 반영하고 심층 추론 및 광범위한 정보 통합을 지원하는 종합적인 벤치마크 GISA 를 제시합니다.#Review#Search Agents#Information Seeking#Benchmark#LLM-driven Agents#Human Trajectories#Deep and Wide Search#Deterministic Evaluation#Dynamic Evaluation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.#Review#Reinforcement Learning#Large Language Models#Scientific QA#Information Retrieval#Verifiable Rewards#Biomedical Domain#Search Agents#Dataset Generation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Dr. Zero: Self-Evolving Search Agents without Training Data본 논문은 기존 멀티턴 검색 에이전트의 데이터 없는 자기 진화 과정에서 발생하는 제한적인 질문 다양성과 다단계 추론 및 도구 사용에 필요한 막대한 컴퓨팅 자원 문제를 해결하는 것을 목표로 합니다.#Review#Self-Evolution#Search Agents#Large Language Models (LLMs)#Data-Free Learning#Reinforcement Learning (RL)#Hop-Grouped Relative Policy Optimization (HRPO)#Question Answering#Multi-hop Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.#Review#Search Agents#LLM#Reinforcement Learning#Synthetic Data#Reward Shaping#Entity-aware Reward#Policy Optimization#Knowledge-intensive Tasks2025년 10월 29일댓글 수 로딩 중
[논문리뷰] InteractComp: Evaluating Search Agents With Ambiguous Queries본 논문은 기존 검색 에이전트들이 사용자 질의를 완전하고 명확하다고 가정하지만, 실제 사용자들은 종종 불완전하고 모호한 질의로 시작하여 상호작용을 통한 명확화가 필요하다는 문제점을 제기합니다.#Review#Search Agents#Interactive AI#Ambiguous Queries#Benchmarking#Language Agents#Information Retrieval#Overconfidence#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.#Review#LLM Agents#Self-play#Reinforcement Learning#Search Agents#Supervision-Free Training#Retrieval-Augmented Generation (RAG)#Task Generation#Curriculum Learning2025년 10월 24일댓글 수 로딩 중