[논문리뷰] Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

2026년 5월 28일수정: 2026년 5월 28일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Chenghao Zhang, Guanting Dong, Yufan Liu, Tong Zhao, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

Ptah: 사용자 쿼리로부터 Planning, Research, Writing의 3단계 워크플로우를 통해 체계적인 리포트를 생성하는 Multi-Agent Harness입니다.
Verifier Agent: 워크플로우 전체에서 규칙 기반 체크와 LLM-based rubric verification을 통해 정보의 사실성, 인용의 정확성, 교차 모달 일관성을 검증하는 핵심 컴포넌트입니다.
Visual Working Memory: 웹 탐색 중 수집된 시각적 후보군을 저장하고, Planner Agent의 요구사항에 따라 적절한 이미지를 매칭하여 활용하는 중간 저장소입니다.
PtahEval: 기존 벤치마크에 Image Content Quality와 Multimodal Presentation Quality 평가 항목을 추가한 전문적인 평가 프로토콜입니다.
Test-Time Scaling (TTS): 최종 리포트를 생성한 후, 다단계 리파인먼트 훅(refinement hooks)을 통해 콘텐츠, 시각 자료, HTML 구조를 순차적으로 개선하는 후처리 과정입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 연구는 대규모 언어 모델(LLM)이 Deep Research 분야에서 사실 기반의 긴 리포트를 작성할 때 발생하는 불투명성과 시각 자료 활용의 한계를 해결하고자 합니다. 기존 연구(Baseline)들은 결정론적인 정답이 없는 개방형 도메인에서 다단계 추론을 수행할 때, 단계별 검증 체계의 부재로 인해 초기 단계의 노이즈가 최종 결과물의 신뢰도를 심각하게 저하시키는 문제를 안고 있습니다. 또한, 기존 시스템에서 이미지 삽입은 핵심적인 연구 프로세스가 아닌 단순한 장식용 후처리(post-hoc decoration)로 다루어지고 있어, 텍스트와 시각 자료 간의 긴밀한 통합이 이루어지지 않습니다. 이러한 문제를 해결하기 위해 본 논문은 자율적이고 검증 가능한 Multi-Agent Harness인 Ptah를 제안합니다.

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 연구가 제안하는 Ptah는 계획(Planning), 연구(Research), 작성(Writing)의 구조화된 단계를 거치며, 각 과정에서 Verifier Agent가 acceptance function 역할을 수행하여 결과물의 신뢰성을 확보합니다 [Figure 2]. Planning 단계에서는 시각 자료 요구사항이 포함된 연구 계획을 수립하고, Research 단계에서는 병렬 에이전트들이 Visual Working Memory를 통해 근거가 확실한 텍스트 및 이미지 후보군을 수집합니다. 마지막으로 Writing 단계에서는 수집된 정보를 바탕으로 declarative multimodal tool use를 사용하여 텍스트와 이미지를 조화롭게 배치한 리포트를 작성하며, 이후 Test-Time Scaling을 통해 완성도를 높입니다.

실험 결과, Ptah는 DeepResearch Bench와 DeepConsult 데이터셋에서 기존 방법론 대비 월등한 성능을 보였습니다. 특히 Ptah는 DeepResearch Bench에서 전체 점수 45.16을 기록하며 가장 높은 종합 성능을 달성하였고, 특히 통찰력(Insight)과 가독성(Readability) 지표에서 우위를 점했습니다 [Table 1]. 또한, PtahEval 평가에서 Image Content Quality 및 Multimodal Presentation Quality 부문에서도 압도적인 점수를 기록하며, 단순 텍스트 기반 모델이나 기존 다중 모달 생성 모델보다 더 전문적이고 신뢰성 높은 리포트를 생성함을 입증했습니다 [Table 2]. 이는 Verifier Agent와 Test-Time Scaling의 결합이 결과물의 품질과 신뢰도를 대폭 향상시켰음을 의미합니다.

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 신뢰할 수 있는 다중 모달 Deep Research 리포트 생성을 위한 Ptah 프레임워크를 성공적으로 제안하였습니다. Ptah는 단계별 검증과 체계적인 시각 자료 관리를 통해 학계와 산업계가 요구하는 사실 기반의 고품질 리포트 자동 생성 기술의 새로운 기준을 제시합니다. 연구 결과는 향후 에이전트 기반 시스템이 복잡한 지식 집약적 작업을 수행할 때 검증 가능성(Verifiability)과 시각적 일관성(Cross-modal consistency)을 어떻게 확보해야 하는지에 대한 중요한 지침을 제공하며, LLM 기반 연구 에이전트의 실질적인 활용 가능성을 대폭 확장할 것으로 기대됩니다.