[논문리뷰] LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

2026년 6월 1일수정: 2026년 6월 1일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Qixin Hu, Shuai Yang, Wei Huang, Song Han, Yukang Chen

1. Key Terms & Definitions (핵심 용어 및 정의)

AR (Autoregressive) Video Diffusion: 프레임이나 Latent를 인과적(causal)으로 생성하여 가변 길이 합성이 가능한 비디오 생성 방식입니다.
Sliding-window Attention: 컴퓨팅 효율을 위해 최신 블록만을 문맥(context)으로 유지하는 방식으로, 장기 생성 시 누적된 오류가 identity drift를 유발하는 한계가 있습니다.
LongLive-RAG: 생성된 Latent 기록을 재사용 가능한 검색 메모리로 변환하여, 장기 생성 시 과거의 유효한 문맥을 모델이 직접 참조하게 함으로써 일관성을 높이는 프레임워크입니다.
Window Temporal Delta Loss: 검색 공간의 중복성을 제거하고 인접 블록 간의 과도한 유사성을 억제하여, 검색 시 의미 있는 시간적 변화를 포착하도록 임베딩을 학습시키는 손실 함수입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 Autoregressive(AR) 비디오 생성 모델에서 장기 생성 시 발생하는 오류 누적과 identity drift 문제를 해결하고자 합니다. 기존 방식은 효율성을 위해 Sliding-window Attention에만 의존하며, 생성된 초기 Latent를 폐기하거나 고정된 앵커(anchor)만을 사용합니다 [Figure 1]. 이로 인해 Sliding-window 내에 오류나 artifacts가 발생하면 이후 생성 단계에서 이를 복구할 방법이 없으며, 오류가 계속해서 전파되는 치명적인 문제가 발생합니다. 따라서 모델이 단순히 고정된 윈도우에 의존하지 않고, 생성된 모든 과거 이력을 필요에 따라 검색하여 참조할 수 있는 능동적인 메커니즘이 요구됩니다.

Figure 1: LongLive-RAG 개요 및 장점

Figure 1 — LongLive-RAG 개요 및 장점

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 생성된 Latent를 동적인 검색 메모리로 활용하는 LongLive-RAG를 제안합니다 [Figure 2]. 제안 모델은 비디오 생성 시마다 Latent 인코더를 통해 Latent를 1024차원의 임베딩으로 변환하고, 이를 사용하여 과거 Latent 중 관련성이 높은 top-K 항목을 검색합니다. 검색된 정보는 고정된 베이스 Generator를 변경하지 않고도 Attention의 일부로 투입되어 모델의 문맥 활용 범위를 확장합니다. 또한 Window Temporal Delta Loss와 Smoothing 항을 포함한 Total Loss를 도입하여, 인접 Latent 간의 중복성을 억제하고 임베딩 경로의 안정성을 확보합니다 [Figure 3].

Figure 2: LongLive-RAG 아키텍처

Figure 2 — LongLive-RAG 아키텍처

Figure 3: 임베딩 공간 분석

Figure 3 — 임베딩 공간 분석

실험 결과, LongLive-RAG는 Self-Forcing, LongLive, Causal-Forcing 등 다양한 AR 백본 모델에서 일관되게 향상된 성능을 보였습니다. 30s, 60s, 120s 생성 환경 모두에서 VBench-Long 평가지표 평균 순위 1위를 달성하였으며, 특히 Subject Consistency와 Background Consistency, Imaging Quality 측면에서 우수한 성능을 입증하였습니다 [Table 2]. Retrieval 추가에 따른 오버헤드는 120s 생성 기준 전체 연산의 일부인 490ms에 불과하여 효율성 또한 확보하였습니다 [Table 1].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 AR 비디오 생성 분야에서 Latent history를 검색 가능한 메모리로 정의하고, 이를 통해 모델의 장기 일관성을 획기적으로 개선하는 LongLive-RAG를 성공적으로 제안하였습니다. 제안된 프레임워크는 특정 모델 아키텍처에 종속되지 않고 기존 AR 백본 모델에 즉시 통합 가능한 범용적인 접근 방식입니다. 이번 성과는 향후 긴 시간의 영상 생성(infinite-horizon video generation) 및 일관성 있는 world simulation 분야에 중요한 기술적 이정표가 될 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning
현재글 : [논문리뷰] LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation
다음글 [논문리뷰] MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation