[논문리뷰] Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

2026년 2월 4일수정: 2026년 2월 4일

링크: 논문 PDF로 바로 열기

저자: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer

핵심 연구 목표

논문은 오토-회귀 비디오 생성 모델의 주요 병목인 KV-cache 메모리 문제 를 해결하고자 합니다. KV-cache가 이력에 비례하여 성장하며 GPU 메모리를 지배하여 모델 배포를 제한하고, 짧은 메모리 예산이 장기적인 일관성(정체성, 레이아웃, 움직임)을 저해하는 문제를 개선하여 메모리 효율적인 장기 비디오 생성 을 가능하게 하는 것을 목표로 합니다.

핵심 방법론

본 논문은 훈련 없이 2비트 KV-cache 양자화 를 수행하는 Quant VideoGen (QVG) 프레임워크를 제안합니다. QVG는 비디오의 시공간적 중복성을 활용하는 Semantic-Aware Smoothing (SAS) 기법을 사용하여, k-means 클러스터링 으로 유사한 토큰 그룹을 형성하고 각 그룹의 centroid를 빼서 양자화 친화적인 저진폭 residual을 생성합니다. 또한 Progressive Residual Quantization 을 통해 잔차를 다단계로 압축하여 양자화 오류를 추가로 줄입니다.

주요 결과

QVG는 LongCat-Video 및 HY-WorldPlay 모델에서 KV-cache 메모리를 최대 7.0배 까지 절감하면서, 4% 미만의 엔드-투-엔드 레이턴시 오버헤드 만 발생시켰습니다. 특히 LongCat-Video-13B 의 경우 6.94배 압축률 로 28.716 PSNR 을 달성했으며, HY-WorldPlay-8B 모델은 단일 RTX 4090 에서 실행 가능해지면서 29 PSNR 이상 의 품질을 유지했습니다. Semantic-Aware Smoothing 은 키 캐시 양자화 오류를 약 6.9배 , 값 캐시 양자화 오류를 약 2.6배 줄이는 효과를 보였습니다.

AI 실무자를 위한 시사점

이 연구는 오토-회귀 비디오 생성 모델 의 KV-cache 메모리 병목 현상 을 해결하여, 고품질 장기 비디오 생성 모델의 실용적인 배포 를 가능하게 합니다. 훈련 없는 양자화(training-free quantization) 접근 방식은 기존 모델에 쉽게 통합될 수 있으며, Semantic-Aware Smoothing 과 Progressive Residual Quantization 기법은 다른 시퀀스 기반 AI 모델의 메모리 효율성을 개선하는 데에도 적용될 수 있는 잠재력을 제시합니다. 이는 AI 애플리케이션의 하드웨어 제약 완화 에 큰 기여를 합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR
현재글 : [논문리뷰] Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
다음글 [논문리뷰] Residual Context Diffusion Language Models