[논문리뷰] Memento: Reconstruct to Remember for Consistent Long Video Generation

2026년 6월 15일수정: 2026년 6월 15일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Xuan Wei, Longbin Ji, Guan Wang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Qingqi Hong

1. Key Terms & Definitions (핵심 용어 및 정의)

Memory Bank: 장기 비디오 생성 시 이전 프레임의 정보를 요약하여 저장하는 고정 크기의 저장소로, 모델이 과거의 문맥을 참조하게 함.
Subject-Reconstruction-Guided Framework: 대상 인물의 외형을 기억에서 복원하는 과정을 훈련 목표로 설정하여, 모델이 장기적으로 인물의 정체성을 유지하도록 강제하는 학습 방법론.
Dual-query Memory Mechanism: 스토리 중심의 장기적 정체성 정보(Long-context)와 샷 중심의 시각적 연속성 정보(Short-context)를 각각 분리된 Query를 통해 추출하는 기술.
Subject-Aware Data Curation: 반복 등장하는 인물을 대명사 없이 고유 명사로 명시하여 학습 데이터의 모호성을 제거하고 인물 식별력을 높이는 데이터 처리 파이프라인.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 장기 비디오 생성 시 인물의 정체성이 시간이 지남에 따라 왜곡되거나 소실되는 문제를 해결하고자 한다 [Figure 1]. 기존의 시간적 분해(Temporal Decomposition) 기반 모델들은 차기 샷(Next-shot)의 시각적 연속성만을 최적화할 뿐, 인물의 정체성을 보존하기 위한 명시적 신호가 부족하다는 한계가 있다. 이로 인해 세대(Generation)가 진행될수록 외모, 의상 등 핵심적인 인물 정보가 희석되는 Identity Drift 현상이 발생한다. 따라서 저자들은 인물 보존을 암묵적인 기대가 아닌, 명시적으로 검증 가능한 정체성 접지(Identity Grounding) 문제로 정의하고 이를 해결하기 위한 새로운 프레임워크를 제안한다.

Figure 1: 긴 비디오에서의 일관성

Figure 1 — 긴 비디오에서의 일관성

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 인물 정체성 보존과 시각적 문맥 유지를 동시에 달성하기 위해 Memento 프레임워크를 제안한다 [Figure 2]. Memento는 Dual-query Memory Mechanism을 도입하여 장기적 인물 정보와 단기적 샷 정보를 분리하여 활용하며, Subject-anchored Multi-task Training을 통해 차기 샷 생성과 메모리 기반의 인물 복원을 동시에 학습한다. 이를 지원하기 위해 Pronoun-free subject description을 포함한 Subject-aware Data Curation Pipeline을 구성하여 학습 데이터의 질을 높였다 [Figure 3]. 정량적 실험 결과, Memento는 Inter-shot subject consistency에서 0.7338을 기록하여 기존 방법론 대비 우수한 성능을 보였다 [Table 1]. 또한, 0.3063의 Story-level semantic consistency를 달성하며 복잡한 서사 구조에서도 높은 일관성을 유지함을 입증하였다. 이는 제안하는 복원 유도 학습(Reconstruction-guided training)이 인물 정체성 drift를 방지하고 시각적 품질과 내러티브 일관성을 모두 확보할 수 있음을 의미한다 [Figure 4].

Figure 2: Memento 프레임워크 개요

Figure 2 — Memento 프레임워크 개요

Figure 3: 데이터 큐레이션 파이프라인

Figure 3 — 데이터 큐레이션 파이프라인

4. Conclusion & Impact (결론 및 시사점)

본 논문은 인물 정체성 보존을 위한 명시적 복원 목표를 설정함으로써 장기 비디오 생성 분야의 고질적인 정체성 소실 문제를 효과적으로 완화하였다. 이 연구는 고품질의 장기 시나리오 비디오 제작을 위한 새로운 기술적 표준을 제시하며, 특히 인물 중심의 스토리텔링 비디오 생성에서 강력한 성능을 보여준다. 향후 이 방법론은 보다 복잡한 다중 인물 관계나 대규모 시네마틱 제작 환경에서의 자동화된 비디오 생성 파이프라인 발전에 크게 기여할 것으로 기대된다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] MVEB: Massive Video Embedding Benchmark
현재글 : [논문리뷰] Memento: Reconstruct to Remember for Consistent Long Video Generation
다음글 [논문리뷰] Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning