[논문리뷰] InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

2026년 5월 10일수정: 2026년 5월 10일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Sicong Leng, Ronghao Dang, Jiayan Guo, Jiuning Gu, Bohan Hou, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Interleaved Multimodal Search: 텍스트와 시각적 증거(Visual Evidence)를 반복적으로 활용하여 탐색 경로를 결정하고, 이전 증거가 다음 검색 단계를 조건화(Conditioning)하는 에이전트 기반 탐색 방식입니다.
Search-Controlling Visual Evidence: 단순히 답변의 근거가 되는 것을 넘어, 에이전트가 다음 검색 쿼리, 엔티티, 웹페이지, 혹은 도구 호출을 결정하도록 유도하는 시각적 신호(로고, 공간적 관계 등)입니다.
InterLV-Agent: 논문에서 제안하는 표준화된 도구 사용, 궤적 로깅(Trajectory Logging), 모델 비교를 위한 레퍼런스 프레임워크입니다.
Multi-branch Search: 에이전트가 다수의 논리적 경로(Reasoning Route)를 병렬로 탐색하고, 수집된 증거를 비교하여 후속 검색할 경로를 선택하는 고급 탐색 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 멀티모달 에이전트 벤치마크들이 시각적 증거를 단순히 답변의 최종 종착지(Endpoint)로만 취급하여, 실제 정보 탐색 과정에서 시각적 정보가 검색 경로를 제어하는 역할을 간과한다는 문제를 지적합니다. 기존 연구들은 대부분 정적인 입력 이미지를 처리하거나, 단일 경로 탐색(Single-chain)에만 집중하여 복잡한 오픈월드 환경에서의 동적인 탐색 능력을 평가하는 데 한계가 있습니다. 이에 저자들은 에이전트가 시각적 신호를 통해 능동적으로 다음 단계를 계획하는 'Interleaved Multimodal Search' 역량을 체계적으로 평가할 필요성을 제기합니다 [Figure 1].

Figure 1: 기존 연구와 제안 벤치마크 비교

Figure 1 — 기존 연구와 제안 벤치마크 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 3단계의 난이도로 구성된 InterLV-Search 벤치마크를 제안합니다. Level 1은 텍스트 요구사항에서 시각적 증거를 능동적으로 찾는 능력을, Level 2는 통제된 오프라인 환경에서 다중 홉(Multi-hop) 증거 기반 탐색을, Level 3는 노이즈가 많은 오픈웹 환경에서 단일 경로 및 다중 분기(Multi-branch) 탐색을 평가합니다 [Figure 2]. 데이터 구축을 위해 MLLM 기반의 자동화된 파이프라인과 인간 피드백이 결합된 하이브리드 방식을 채택하여 총 2,061개의 샘플을 생성했습니다. 실험 결과, 최신 상용 및 오픈소스 멀티모달 에이전트조차 50% 미만의 정확도를 기록하며 인터리브 탐색 능력의 한계를 드러냈습니다. 특히, Multi-branch 샘플에서 성능 저하가 뚜렷하게 나타나 현재 모델들이 복잡한 탐색 토폴로지에 취약함을 입증했습니다 [Table 2]. 또한, 시각적 검색 도구(Image Search)를 배제할 경우 성능이 크게 저하되어, 시각적 정보가 실질적인 탐색 제어 신호로 작동하고 있음이 확인되었습니다 [Table 4].

Figure 2: 데이터 구축 파이프라인

Figure 2 — 데이터 구축 파이프라인

4. Conclusion & Impact (결론 및 시사점)

본 연구는 인터리브 멀티모달 탐색이 기존 벤치마크가 포착하지 못하는 에이전트의 핵심적 난제임을 입증했습니다. 성능 지표 및 궤적 분석을 통해, 단순히 도구를 사용하는 것 이상으로 적절한 시각적 증거를 식별하고 이를 검색 피벗(Pivot)으로 활용하여 일관된 탐색 상태를 유지하는 능력이 성공의 관건임을 보여줍니다. 이 벤치마크는 향후 멀티모달 에이전트가 오픈월드 환경에서 더욱 안정적이고 능동적인 정보 수집 및 통합 역량을 갖추도록 유도하는 표준 가이드라인 역할을 할 것으로 기대됩니다.

Figure 4: 모델별 도구 사용 분포

Figure 4 — 모델별 도구 사용 분포

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] IntentGrasp: A Comprehensive Benchmark for Intent Understanding
현재글 : [논문리뷰] InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search
다음글 [논문리뷰] LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling