#Deep Research Agents

13개의 포스트

[논문리뷰] Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking

본 논문은 현대의 멀티모달 딥 리서치 시스템이 정보 수집 과정에서 발생하는 Cross-modal conflict를 적절히 해결하지 못하는 '지식적 경직성(epistemic rigidity)' 문제를 해결하고자 합니다.

#Review #Multimodal #Deep Research Agents #Belief Revision Theory #Structural Thinking #Multimodal Structural Graph (MSG)#Conflict-aware

2026년 6월 9일

[논문리뷰] QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

본 논문은 Deep Research Agents의 광범위한 역량을 갖춘 훈련 방식의 불투명성과 기존 Open-weight 모델들의 한계점을 해결하고자 한다.

#Review #Deep Research Agents #Synthetic Data #Rubric Tree #Context Management #Reinforcement Learning #Fact Seeking #Citation Grounding #Report Synthesis

2026년 5월 25일

[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.

#Review #Deep Research Agents #Edge-Scale Models #Open Data #Reinforcement Learning #Information Gain #Supervised Fine-Tuning

2026년 4월 22일

[논문리뷰] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Deep Research Agent를 훈련시키기 위해서는 검색, 증거 취합 및 다단계 추론이 복합적으로 이루어지는 Long-Horizon Trajectory가 필수적입니다.

#Review #Deep Research Agents #Long-Horizon Trajectories #Offline Trajectory Synthesis #Browser Primitives #Supervised Fine-tuning #Corpus Bootstrapping #Reproducible Pipeline

2026년 3월 23일

[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

본 논문은 심층 연구 에이전트 워크플로우에서 LLM 기반 검색기 가 얼마나 효과적으로 기여할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #Deep Research Agents #Scientific Literature Retrieval #LLM-based Retrievers #Benchmarking #Test-time Scaling #Information Retrieval #Query Decomposition #RAG

2026년 2월 5일

[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.

#Review #Deep Research Agents #LLM Evaluation #Wikipedia #Good Articles #Factuality #Writing Quality #Benchmark #Hallucinations #Verifiability

2026년 2월 2일

[논문리뷰] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

본 논문은 Deep Research Agents (DRAs)의 신뢰할 수 없는 출력(예: 환각, 오류) 문제를 해결하고, 특히 추론 시점(inference time) 에 에이전트의 성능을 향상시키는 것을 목표로 합니다.

#Review #Deep Research Agents #Inference-Time Verification #Self-Evolving LLM Agents #Rubric-Guided Feedback #Failure Taxonomy #Test-Time Scaling #Supervised Fine-tuning

2026년 1월 25일

[논문리뷰] Step-DeepResearch Technical Report

본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.

#Review #Deep Research Agents #LLMs #Reinforcement Learning #Supervised Fine-tuning #Agentic AI #Multi-hop Reasoning #Benchmarking #Cost-effectiveness

2025년 12월 23일

[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?

본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.

#Review #Deep Research Agents #Evaluation Benchmark #Failure Taxonomy #Report Generation #Information Retrieval #Reasoning Resilience #Content Fabrication #AI Agents

2025년 12월 1일

[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents

본 연구는 개방형 질문에 대한 심층 연구(Deep Research, DR) 에이전트의 평가가 응답의 길이, 다양성, 동적 정보원 의존성 등으로 인해 어렵다는 문제를 제기합니다.

#Review #Deep Research Agents #LLM Evaluation #Benchmark #Rubrics #Multi-step Reasoning #Cross-document Synthesis #AI Performance #Task Complexity

2025년 11월 13일

[논문리뷰] Scaling Agents via Continual Pre-training

본 논문은 기존의 에이전트 LLM 훈련 방법론(SFT, RL)이 복잡한 에이전트 태스크에서, 특히 오픈소스 구현체에서 저조한 성능을 보이는 문제를 해결하고자 합니다. 이는 견고한 에이전트 파운데이션 모델의 부재로 인해 훈련 후 다양한 에이전트 행동 학습과 정렬이 동시에 이루어지면서 발생하는 최적화 충돌 때문입니다.

#Review #Agentic LLMs #Continual Pre-training #Deep Research Agents #Tool Use #Multi-step Reasoning #Data Synthesis #Scaling Laws

2025년 9월 17일

[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

본 논문은 대규모 언어 모델(LLM) 기반의 심층 연구(Deep Research) 에이전트가 생성하는 연구 보고서의 내용 품질을 체계적으로 평가하기 위한 벤치마크인 ReportBench 를 제안합니다.

#Review #Deep Research Agents #LLM Evaluation #Academic Survey #Factual Accuracy #Citation Verification #Report Generation #Benchmark #Hallucination

2025년 8월 27일

[논문리뷰] InfoAgent: Advancing Autonomous Information-Seeking Agents

본 논문은 장기적인 정보 탐색 및 심층 추론 능력을 갖춘 대규모 언어 모델(LLM) 에이전트 를 구축하는 데 있어 데이터 합성 및 효율적인 인터랙티브 환경 구축의 병목 현상을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Information Seeking #Reinforcement Learning #Data Synthesis #Web Search Tools #Tool Use #Deep Research Agents

2025년 10월 1일