[논문리뷰] Streaming Autoregressive Video Generation via Diagonal Distillation대규모 확산 모델의 제한된 실시간 스트리밍 기능을 개선하고, 기존 자기회귀 모델의 높은 연산 비용으로 인한 낮은 품질 문제를 해결하는 것이 목표입니다.#Review#Video Generation#Autoregressive Models#Diffusion Models#Distillation#Real-time#Streaming#Temporal Coherence#Flow Matching2026년 3월 10일댓글 수 로딩 중
[논문리뷰] NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control본 논문은 긴 길이의 비디오에 대해 계산 효율적이고, 시간적으로 일관되며, 서사적 흐름에 의미론적으로 부합하는 배경 음악을 자동으로 생성하는 것을 목표로 합니다.#Review#Video-to-Music Generation#Affective Computing#Vision-Language Models (VLMs)#Hierarchical Control#Soundtrack Generation#Temporal Coherence#Emotion-Driven Music2026년 2월 12일댓글 수 로딩 중
[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.#Review#GUI Generation#Image Generation Models#Benchmark#Temporal Coherence#Spatial Grounding#Evaluation Metric#Vision Language Models2026년 2월 9일댓글 수 로딩 중
[논문리뷰] MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing본 논문은 3D 모핑의 난제를 해결하고자 합니다. 특히 다양한 카테고리 간의 객체에 대해 의미론적으로 일관되고 시간적으로 부드러운 변형 시퀀스를 훈련 없이 생성하는 것을 목표로 합니다. 기존 3D 모핑 방식의 한계, 즉 부정확한 대응 추정으로 인한 구조적으로 비현실적인 결과와 낮은 일반화 성능을 극복하고자 합니다.#Review#3D Morphing#Structured Latent (SLAT)#Generative Models#Attention Mechanisms#Training-Free Framework#Cross-Category Transitions#Temporal Coherence2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Generative Neural Video Compression via Video Diffusion Prior본 논문은 기존 비디오 압축 방식이 초저비트레이트 환경에서 발생하는 흐릿함, 세부 정보 손실, 그리고 지각적 깜빡임(perceptual flickering) 문제를 해결하는 것을 목표로 합니다.#Review#Neural Video Compression#Diffusion Models#Generative Models#Video Compression#Temporal Coherence#Perceptual Quality#Flow Matching#Video Diffusion Transformer (VideoDiT)2025년 12월 4일댓글 수 로딩 중
[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video Generation본 논문은 기존 오디오 기반 아바타 비디오 생성 모델에서 잘 다루어지지 않았던 음악 공연 비디오 생성 및 카메라 모션 제어의 한계를 극복하고자 합니다.#Review#Music-Driven Video Generation#Diffusion Models#Multi-Stage Framework#Camera Control#Lip-Sync#Temporal Coherence#Video Diffusion Transformer2025년 12월 2일댓글 수 로딩 중
[논문리뷰] LiteAttention: A Temporal Sparse Attention for Diffusion Transformers본 논문은 비디오 생성 Diffusion Transformers (DiT)의 Quadratic attention complexity 로 인한 과도한 지연 시간 문제를 해결하고자 합니다.#Review#Diffusion Transformers#Sparse Attention#Temporal Coherence#Video Generation#Computational Efficiency#FlashAttention#CUDA Kernels2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis본 논문은 단일 비디오 입력으로부터 고품질의 동적인 3D 콘텐츠(4D)를 생성하는 문제를 해결하고자 합니다. 특히, 기존 4D 확산 모델링의 주요 도전 과제인 데이터 구축 비용 및 3D 형상, 외형, 움직임의 고차원성 으로 인한 직접 모델링의 어려움을 극복하는 것을 목표로 합니다.#Review#4D Generation#Video-to-3D Synthesis#Gaussian Splatting#Diffusion Models#Latent Space Modeling#Variational Autoencoder#Temporal Coherence2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark본 연구는 최신 비디오 생성 모델, 특히 Veo-3 가 복잡한 시각적 추론 시나리오에서 제로샷 추론자(zero-shot reasoner) 로서 얼마나 준비되었는지를 종합적으로 평가하는 것을 목표로 합니다.#Review#Video Generation Models#Zero-Shot Reasoning#Visual Reasoning#MME-COF Benchmark#Chain-of-Frame Reasoning#Temporal Coherence#Spatial Reasoning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion본 논문은 기존 방법론의 한계인 긴 시간 동안의 비디오 생성에 대한 과도한 계산 요구, 3D 표현 없는 장기 비디오 합성 집중, 또는 정적 단일 장면 재구성에 대한 제약을 해결합니다.#Review#Driving Scene Generation#Video Diffusion#3D Reconstruction#Gaussian Splatting#Feed-Forward Models#Temporal Coherence#Multimodal Control2025년 10월 20일댓글 수 로딩 중