[논문리뷰] MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

2026년 6월 9일수정: 2026년 6월 9일

링크: 논문 PDF로 바로 열기

저자: Cong Chen, Guo Gan, Kaixiang Ji, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

Hierarchical Graph Memory: 긴 영상을 coarse-to-fine 방식으로 구조화하여 Video Root, Super Events, Macro Events의 3단계로 표현한 기억 장치.
Agentic Retrieval: Observation-Reason-Action 루프를 통해 모델이 능동적으로 메모리를 탐색하고 필요한 정보를 추출하는 메커니즘.
Decoupled Paradigm: 시각적 인지(Perception)와 논리적 추론(Reasoning) 단계를 분리하여 context window와 token explosion 문제를 해결하는 방식.
Macro Events: 비디오의 의미론적 단위로, 엔티티, 마이크로 이벤트, 그리고 이들 간의 인과 관계를 포함하는 서브 그래프로 구성.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 논문은 기존 Vision-Language Models(VLMs)가 긴 영상을 처리할 때 발생하는 토큰 폭발과 주의력 희석(Attention Dilution) 문제를 해결하고자 합니다. 기존 방식은 긴 영상을 원시 토큰 흐름으로 처리하기 때문에 불필요한 정보가 많고, 추론 성능이 저하되는 "Lost in the Middle" 현상을 겪습니다. 또한, 현재의 고정된 컨텍스트 윈도우는 실제 긴 시간의 영상을 담기에 기술적 한계가 명확합니다. 저자들은 이러한 한계를 극복하기 위해 영상의 인지 단계와 추론 단계를 분리하는 새로운 접근이 필요함을 제기합니다. [Figure 1]은 이러한 decoupled 방식이 어떻게 기존 방식의 한계를 극복하고 모델의 추론 능력을 극대화할 수 있는지 보여줍니다.

Figure 1: MEMDREAMER의 효율성과 추론 성능 향상을 보여주는 핵심 그래프

Figure 1 — MEMDREAMER의 효율성과 추론 성능 향상을 보여주는 핵심 그래프

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 논문은 MEMDREAMER라는 프레임워크를 통해 인지와 추론을 분리하고, 구조화된 그래프 메모리에서 에이전트가 정보를 검색하는 방식을 제안합니다. 시각적 인지 모델은 영상을 스트리밍 방식으로 처리하여 Hierarchical Graph Memory를 생성하고, 이를 기반으로 추론 모델이 3단계 계층 구조를 탐색하며 능동적으로 추론을 수행합니다. 실험 결과, LVBench에서 기존 Gemini-3.1-Pro 모델 대비 12.5 포인트의 성능 향상을 기록하며 SOTA를 달성했습니다. 특히, 제안 방식은 전체 컨텍스트의 2% 수준의 토큰만으로 추론을 완료하며 효율성을 확보했습니다. [Table 3]과 [Table 4]는 제안 방법론이 다양한 벤치마크에서 다른 엔드 투 엔드(end-to-end) 모델들을 압도적으로 능가함을 증명합니다.

Table 3: 다양한 벤치마크에서 기존 모델 대비 MEMDREAMER의 우수한 성능을 보여주는 비교 결과

Table 3 — 다양한 벤치마크에서 기존 모델 대비 MEMDREAMER의 우수한 성능을 보여주는 비교 결과

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 계층적 그래프 메모리와 에이전트 기반 검색 메커니즘이 장시간 영상 이해를 위한 효과적인 최적화 방향임을 제시합니다. 본 연구는 VLM의 내재적 논리적 추론 능력과 긴 영상 이해 성능 사이에 강력한 양의 상관관계가 있음을 최초로 통계적으로 입증하였습니다. 이러한 결과는 멀티모달 이해를 위한 미래 모델 설계에 있어 에이전트 확장(Agentic capacity scaling)이 새로운 패러다임이 될 것임을 시사합니다.

Figure 3: MEMDREAMER의 전체 아키텍처 및 워크플로우를 설명하는 핵심 다이어그램

Figure 3 — MEMDREAMER의 전체 아키텍처 및 워크플로우를 설명하는 핵심 다이어그램

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization
현재글 : [논문리뷰] MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism
다음글 [논문리뷰] MilliVid: Hierarchical Latents for Long-Range Consistency in Video Generation

[논문리뷰] MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

댓글

관련 포스트

Review 의 다른글