본문으로 건너뛰기

[논문리뷰] Helios: Real Real-Time Long Video Generation Model

링크: 논문 PDF로 바로 열기

저자: Shenghai Yuan, Yuanyang Yin, Zongjian Li, Xinwei Huang, Xiao Yang, Li Yuan

핵심 연구 목표

논문은 단일 NVIDIA H100 GPU 에서 19.5 FPS 로 실시간 분 단위 비디오를 생성하고, 기존의 안티-드리프팅(anti-drifting) 휴리스틱이나 가속화 기술 없이도 강력한 품질을 유지하는 최초의 14B 비디오 생성 모델 인 Helios를 개발하는 것을 목표로 합니다. 특히, 긴 비디오에서의 드리프팅 문제 해결과 이미지 확산 모델과 유사한 배치 크기로 학습 가능한 효율성에 중점을 둡니다.

핵심 방법론

Helios는 T2V, I2V, V2V 태스크를 통합하는 14B autoregressive diffusion model 입니다. 드리프팅 완화를 위해 학습 중 드리프팅을 명시적으로 시뮬레이션하고 반복적인 움직임을 제거하는 전략( Relative RoPE , First-Frame Anchor , Frame-Aware Corrupt )을 제안합니다. 효율성 증대를 위해 Multi-Term Memory Patchification 으로 과거 및 노이즈 컨텍스트를 압축하고, Pyramid Unified Predictor Corrector 로 샘플링 단계를 줄였습니다. 또한, Adversarial Hierarchical Distillation 과 인프라 수준 최적화를 통해 메모리 소비를 줄이고 학습 및 추론 처리량을 향상시켰습니다.

주요 결과

Helios는 단일 NVIDIA H100 GPU 에서 19.5 FPS 의 속도로 비디오를 생성하며, 강력한 기준선과 동등한 품질을 달성합니다. 81프레임 단편 비디오 생성에서 총점 6.00 을 기록하여 기존의 모든 distilled 모델을 능가하고 기본 모델과 동등한 성능을 보입니다. 또한, 과거 컨텍스트 토큰 수를 약 8배 , 노이즈 컨텍스트 토큰 수를 약 2.29배 줄여 어텐션 FLOPs를 각각 64배5.2배 감소시켰으며, 샘플링 단계를 50단계에서 3단계 로 크게 단축했습니다.

AI 실무자를 위한 시사점

Helios는 실시간 장편 비디오 생성 을 가능하게 하여 게임 엔진, 인터랙티브 콘텐츠 제작 등 다양한 AI 응용 분야에 혁신적인 기회를 제공합니다. 기존 복잡한 안티-드리프팅 기법 없이도 긴 비디오의 일관성을 유지하는 능력은 개발 복잡성을 크게 줄여줍니다. 또한, 대규모 모델을 단일 GPU에서 효율적으로 학습하고 추론할 수 있도록 하는 메모리 및 연산 최적화는 고품질 비디오 생성 기술의 접근성을 높이는 중요한 의미를 가집니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글