#Long Video Generation

17개의 포스트

[논문리뷰] Memento: Reconstruct to Remember for Consistent Long Video Generation

본 논문은 장기 비디오 생성 시 인물의 정체성이 시간이 지남에 따라 왜곡되거나 소실되는 문제를 해결하고자 한다 . 기존의 시간적 분해(Temporal Decomposition) 기반 모델들은 차기 샷(Next-shot)의 시각적 연속성만을 최적화할 뿐, 인물의 정체성을 보존하기 위한 명시적 신호가 부족하다는 한계가 있다.

#Review #Long Video Generation #Subject Consistency #Diffusion Models #Memory Bank #Identity Grounding #Autoregressive Generation

2026년 6월 15일

[논문리뷰] LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

본 논문은 Autoregressive(AR) 비디오 생성 모델에서 장기 생성 시 발생하는 오류 누적과 identity drift 문제를 해결하고자 합니다. 기존 방식은 효율성을 위해 Sliding-window Attention에만 의존하며, 생성된 초기 Latent를 폐기하거나 고정된 앵커(anchor)만을 사용합니다 .

#Review #Long Video Generation #Autoregressive #Retrieval-Augmented Generation #Video Diffusion #Temporal Consistency #Attention

2026년 6월 1일

[논문리뷰] LVSA: Training-Free Sparse Attention for Long Video Diffusion

본 논문은 video diffusion transformers의 긴 영상 생성 과정에서 발생하는 dense self-attention의 연산 효율성 저하와 품질 저하 문제를 해결합니다.

#Review #Video Diffusion Transformers #Sparse Attention #Long Video Generation #Training-Free #FlashInfer #Attention Optimization

2026년 6월 1일

[논문리뷰] LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

본 논문은 기존 Audio-Visual Generation 벤치마크가 Minute-Scale Content의 평가 요구사항을 충족하지 못하는 문제를 해결하고자 한다.

#Review #Audio-Visual Generation #Long Video Generation #Evaluation #Benchmark #T2AV #I2AV #V2AV #MLLM-assisted assessment

2026년 5월 26일

[논문리뷰] FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching

본 논문은 비디오 Diffusion 모델의 생성 범위를 학습된 문맥 길이 이상으로 확장하는 과정에서 발생하는 품질 저하와 시간적 일관성 문제를 해결하고자 합니다.

#Review #Long Video Generation #Flow Matching #Tweedie Matching #Stochastic Early-Phase Sampling #Inference-time Framework #Diffusion Models

2026년 5월 21일

[논문리뷰] Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

본 논문은 Foundation video generation 모델을 활용하여 학습 없이 무한한 길이의 영상을 일관성 있게 생성하는 것을 목표로 합니다.

#Review #Long Video Generation #Train-Free #Autoregressive Generation #Consistency Enhancement #Diffusion Models #Test-Time Scaling #Temporal Consistency

2026년 5월 20일

[논문리뷰] LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

본 논문은 긴 비디오 생성 시 발생하는 메모리 병목 현상과 낮은 연산 효율 문제를 해결하기 위해 시스템과 알고리즘이 통합된 인프라 LongLive-2.0을 제안한다.

#Review #Long Video Generation #NVFP4 #Sequence Parallelism #Autoregressive Diffusion #KV Cache Quantization #Balanced SP

2026년 5월 18일

[논문리뷰] Mode Seeking meets Mean Seeking for Fast Long Video Generation

본 논문은 몇 초 길이의 단편 비디오 생성에서 분 단위 길이의 장편 비디오 생성으로 확장할 때 발생하는 주요 병목 현상을 해결하고자 합니다.

#Review #Long Video Generation #Diffusion Models #Mode Seeking #Mean Seeking #Decoupled Diffusion Transformer #Flow Matching #Distribution Matching #Video Synthesis

2026년 3월 1일

[논문리뷰] Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

논문은 오토-회귀 비디오 생성 모델의 주요 병목인 KV-cache 메모리 문제 를 해결하고자 합니다.

#Review #Auto-Regressive Video Generation #KV-Cache Quantization #Memory Optimization #Long Video Generation #Video Diffusion Models #Semantic-Aware Smoothing #Progressive Residual Quantization

2026년 2월 4일

[논문리뷰] SemanticGen: Video Generation in Semantic Space

기존 비디오 생성 모델의 느린 수렴 속도 와 긴 비디오 생성 시 높은 계산 비용 이라는 한계를 해결하는 것을 목표로 합니다. 비디오의 내재된 중복성을 활용하여 컴팩트하고 높은 수준의 의미 공간(semantic space) 에서 비디오를 생성함으로써 효율성과 품질을 동시에 개선하고자 합니다.

#Review #Video Generation #Semantic Space #Diffusion Models #VAE Latents #Long Video Generation #Semantic Encoders #Generative AI

2025년 12월 23일

[논문리뷰] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

본 논문은 블록 확산 모델을 사용하여 분 단위 길이의 고품질 및 일관된 비디오를 생성하는 데 따르는 주요 과제들을 해결하는 것을 목표로 합니다. 특히, KV-캐시(KV-cache)로 인한 장기적 오류 누적 문제와 세밀한 긴 비디오 벤치마크 및 일관성 측정 지표의 부족 을 해결하고자 합니다.

#Review #Block Diffusion #Video Generation #Temporal Consistency #KV Cache #Semi-Autoregressive #Video Quality Metrics #Long Video Generation

2025년 12월 2일

[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

기존 비디오 확산 모델의 비효율성 및 고정 길이 제약과 AR 모델의 낮은 품질 및 병렬화 불가능 문제를 극복하고자 합니다.

#Review #World Simulation #Video Generation #Block Diffusion #Semi-Autoregressive #KV Cache Management #Inference Engine #Long Video Generation #Performance Optimization

2025년 11월 26일

[논문리뷰] LongLive: Real-time Interactive Long Video Generation

실시간 및 대화형으로 고품질의 긴 비디오를 생성하는 데 따르는 효율성, 일관성, 그리고 시맨틱 일관성 문제를 해결하는 것을 목표로 합니다. 특히, 프롬프트 전환 시 시각적 일관성과 동적 콘텐츠 생성을 위한 상호작용성 부족이라는 기존 AR 및 Diffusion 모델의 한계를 극복하고자 합니다.

#Review #Long Video Generation #Real-time #Interactive AI #Autoregressive Models #KV Cache #Streaming Tuning #Attention Sink #Diffusion Models

2025년 9월 29일

[논문리뷰] Mixture of Contexts for Long Video Generation

본 논문은 Diffusion Transformer (DiT) 기반의 장시간 비디오 생성 모델에서 발생하는 quadratic cost의 self-attention 문제로 인한 연산 및 메모리 비효율성을 해결하고, 모델이 긴 시퀀스에 걸쳐 일관된 장기 기억 을 유지하면서 표류하거나 붕괴되지 않도록 하는 것을 목표로 합니다.

#Review #Long Video Generation #Diffusion Transformers (DiT)#Sparse Attention #Context Routing #Memory Management #Generative Models #Video Synthesis

2025년 8월 29일

[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video Generation

본 논문은 연속 공간(continuous-space) 비디오 생성 모델과 비교하여 뒤처져 있던 이산 공간(discrete-space) 비디오 생성 모델의 성능 격차를 해소하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Video Generation #Metric Path #Long Video Generation #Asynchronous Scheduling #Text-to-Video #Multimodal Generation

2025년 10월 29일

[논문리뷰] LongCat-Video Technical Report

본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.

#Review #Video Generation #Diffusion Transformer #RLHF #Sparse Attention #Long Video Generation #Coarse-to-Fine Generation #Multi-task Learning #World Models

2025년 10월 28일

[논문리뷰] MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

본 논문은 Diffusion Transformers (DiTs) 기반의 긴 비디오 생성에서 발생하는 전체 어텐션의 2차 시간 복잡도 문제 를 해결하고자 합니다.

#Review #Long Video Generation #Sparse Attention #Diffusion Transformers #Mixture-of-Groups Attention #Token Routing #Computational Efficiency #Context Length

2025년 10월 22일