본문으로 건너뛰기

[논문리뷰] DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

링크: 논문 PDF로 바로 열기

저자: DuMate Team, Baidu AI Cloud


1. Key Terms & Definitions (핵심 용어 및 정의)

  • Qianfan Agent Foundry: 연구의 핵심 기반 프레임워크로, Agent Core(추론 및 계획)와 Tool Ecosystem(실행)을 명확히 분리하여 중간 결정과 도구 호출의 추적성을 보장하는 인프라입니다.
  • Graph-Based Dynamic Planning: 연구 로드맵을 Directed Acyclic Graph(DAG) 구조로 관리하여, 고정된 선형 계획 대신 증거 수집 결과에 따라 계획을 확장, 가지치기(Pruning), 혹은 재구성하는 동적 계획 전략입니다.
  • Recursive Two-Level Execution: 상위 Research Agent가 복잡한 검색 하위 작업을 내부의 독립적인 Search Agent에 위임하여, 개별 검색 단계의 노이즈가 전체 연구의 안정성을 해치지 않도록 격리하는 실행 구조입니다.
  • Rubric-Grounded Reasoning: 증거 기반의 보고서 작성 시, 작업 특화적인 품질 평가 기준(Rubric)을 동적으로 생성하여 이를 추론 과정의 스캐폴드(Scaffold)로 활용함으로써 factual grounding과 adaptive stopping을 지원하는 메커니즘입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 Deep Research(DR) 시스템들이 직면한 4가지 핵심적인 한계점을 해결하고자 합니다. 첫째, 불충분하게 정의된 연구 범위 속에서 긴 호흡의 계획을 수행할 때 발생하는 복잡성 문제입니다. 둘째, 단일 에이전트 환경에서 하위 작업의 분해 및 스케줄링 과정 중 발생하는 오류 전파의 위험입니다. 셋째, 장문 보고서 생성 과정에서의 환각(Hallucination) 방지 및 정보 충실성 유지의 어려움입니다. 넷째, 인간 연구자가 과정을 검증하기 힘든 프로세스 불투명성 문제입니다 [Figure 1]. 이러한 한계로 인해 기존의 ReAct 방식과 같은 단기적, 반응적 모델은 장기적이고 전략적인 연구 과제 수행에 제약이 따릅니다.

Figure 1: Qianfan Agent Foundry 아키텍처

Figure 1 — Qianfan Agent Foundry 아키텍처

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Qianfan Agent Foundry 기반의 DuMate-DeepResearch 프레임워크를 제안하며, 특히 Graph-Based Dynamic Planning을 통해 연구 경로를 정교하게 제어합니다 [Figure 1]. 이 프레임워크는 Coarse-to-Fine 방식으로 연구 범위를 확장하며, 실시간 반사(Reflection)와 재계획을 통해 연구 경로를 동적으로 업데이트합니다 [Figure 3]. 또한, Recursive Two-Level Execution을 통해 검색 하위 작업을 전문 에이전트에게 위임함으로써 시스템의 전반적인 실행 안정성을 확보합니다 [Figure 2]. 실험 결과, DuMate-DeepResearchDeepResearch Bench에서 58.03%의 점수로, DeepResearch Bench II에서는 61.95%의 점수로 상업적 및 오픈소스 베이스라인 모델들을 상회하며 State-of-the-Art(SOTA) 성능을 기록했습니다. 특히 정보 회수(Information Recall) 및 분석 역량 부문에서 탁월한 우위를 보였습니다.

Figure 2: 동적 계획 및 최적화 흐름

Figure 2 — 동적 계획 및 최적화 흐름

Figure 3: 그래프 기반 계획 및 반사 기법

Figure 3 — 그래프 기반 계획 및 반사 기법

4. Conclusion & Impact (결론 및 시사점)

본 논문은 auditable한 다중 에이전트 인프라와 동적 계획, 그리고 Rubric-based reasoning을 결합하여 고품질의 자동화된 연구 시스템을 성공적으로 구현했습니다. 이 연구는 단순히 결과물의 정확도를 높이는 것을 넘어, 에이전트의 사고 과정과 도구 사용 내역을 외부로 표출하여 사용자가 전 과정을 검증할 수 있는 신뢰 가능한 DR 시스템의 방향성을 제시합니다. 향후 학계 및 산업계에서 대규모 정보 합성과 복잡한 조사 업무를 수행하는 에이전트 설계에 중요한 참조 모델이 될 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글