[논문리뷰] QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks본 논문은 Deep Research Agents의 광범위한 역량을 갖춘 훈련 방식의 불투명성과 기존 Open-weight 모델들의 한계점을 해결하고자 한다.#Review#Deep Research Agents#Synthetic Data#Rubric Tree#Context Management#Reinforcement Learning#Fact Seeking#Citation Grounding#Report Synthesis2026년 5월 25일댓글 수 로딩 중
[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.#Review#Deep Research Agents#Edge-Scale Models#Open Data#Reinforcement Learning#Information Gain#Supervised Fine-Tuning2026년 4월 22일댓글 수 로딩 중
[논문리뷰] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory SynthesisDeep Research Agent를 훈련시키기 위해서는 검색, 증거 취합 및 다단계 추론이 복합적으로 이루어지는 Long-Horizon Trajectory가 필수적입니다.#Review#Deep Research Agents#Long-Horizon Trajectories#Offline Trajectory Synthesis#Browser Primitives#Supervised Fine-tuning#Corpus Bootstrapping#Reproducible Pipeline2026년 3월 23일댓글 수 로딩 중
[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research Agents본 논문은 심층 연구 에이전트 워크플로우에서 LLM 기반 검색기 가 얼마나 효과적으로 기여할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.#Review#Deep Research Agents#Scientific Literature Retrieval#LLM-based Retrievers#Benchmarking#Test-time Scaling#Information Retrieval#Query Decomposition#RAG2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.#Review#Deep Research Agents#LLM Evaluation#Wikipedia#Good Articles#Factuality#Writing Quality#Benchmark#Hallucinations#Verifiability2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification본 논문은 Deep Research Agents (DRAs)의 신뢰할 수 없는 출력(예: 환각, 오류) 문제를 해결하고, 특히 추론 시점(inference time) 에 에이전트의 성능을 향상시키는 것을 목표로 합니다.#Review#Deep Research Agents#Inference-Time Verification#Self-Evolving LLM Agents#Rubric-Guided Feedback#Failure Taxonomy#Test-Time Scaling#Supervised Fine-tuning2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Step-DeepResearch Technical Report본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.#Review#Deep Research Agents#LLMs#Reinforcement Learning#Supervised Fine-tuning#Agentic AI#Multi-hop Reasoning#Benchmarking#Cost-effectiveness2025년 12월 23일댓글 수 로딩 중
[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.#Review#Deep Research Agents#Evaluation Benchmark#Failure Taxonomy#Report Generation#Information Retrieval#Reasoning Resilience#Content Fabrication#AI Agents2025년 12월 1일댓글 수 로딩 중
[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents본 연구는 개방형 질문에 대한 심층 연구(Deep Research, DR) 에이전트의 평가가 응답의 길이, 다양성, 동적 정보원 의존성 등으로 인해 어렵다는 문제를 제기합니다.#Review#Deep Research Agents#LLM Evaluation#Benchmark#Rubrics#Multi-step Reasoning#Cross-document Synthesis#AI Performance#Task Complexity2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Scaling Agents via Continual Pre-training본 논문은 기존의 에이전트 LLM 훈련 방법론(SFT, RL)이 복잡한 에이전트 태스크에서, 특히 오픈소스 구현체에서 저조한 성능을 보이는 문제를 해결하고자 합니다. 이는 견고한 에이전트 파운데이션 모델의 부재로 인해 훈련 후 다양한 에이전트 행동 학습과 정렬이 동시에 이루어지면서 발생하는 최적화 충돌 때문입니다.#Review#Agentic LLMs#Continual Pre-training#Deep Research Agents#Tool Use#Multi-step Reasoning#Data Synthesis#Scaling Laws2025년 9월 17일댓글 수 로딩 중
[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks본 논문은 대규모 언어 모델(LLM) 기반의 심층 연구(Deep Research) 에이전트가 생성하는 연구 보고서의 내용 품질을 체계적으로 평가하기 위한 벤치마크인 ReportBench 를 제안합니다.#Review#Deep Research Agents#LLM Evaluation#Academic Survey#Factual Accuracy#Citation Verification#Report Generation#Benchmark#Hallucination2025년 8월 27일댓글 수 로딩 중
[논문리뷰] InfoAgent: Advancing Autonomous Information-Seeking Agents본 논문은 장기적인 정보 탐색 및 심층 추론 능력을 갖춘 대규모 언어 모델(LLM) 에이전트 를 구축하는 데 있어 데이터 합성 및 효율적인 인터랙티브 환경 구축의 병목 현상을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Information Seeking#Reinforcement Learning#Data Synthesis#Web Search Tools#Tool Use#Deep Research Agents2025년 10월 1일댓글 수 로딩 중