#Video Generation

182개의 포스트

[논문리뷰] From Pixels to States: Rethinking Interactive World Models as Game Engines

본 논문은 최근 비디오 생성 모델이 interactive world를 구현하는 데이터 기반 방법론으로 부상하고 있으나, 실제 게임 엔진이 갖는 엄격한 논리적 구조를 완전히 재현하지 못한다는 문제를 제기한다.

#Review #Interactive World Models #Game Engines #Video Generation #Game State Dynamics #Action Control #Long-horizon Consistency

2026년 7월 16일

[논문리뷰] Motion4Motion: Motion Transfer Across Subjects at Inference

본 논문은 기존 모션 전이 방식이 스켈레톤 구조에 지나치게 의존함으로써 겪는 범용성 부족 문제를 해결하고자 합니다. 대다수의 기존 연구는 인간 중심의 스켈레톤 사전 지식을 강제하여, 동물과 같이 다양한 형태의 캐릭터 간 모션 전이에 적용하기 어렵습니다 .

#Review #Motion Transfer #Training-free #Diffusion Transformer #Attention Control #Video Generation #Cross-species #Motion Flow

2026년 7월 13일

[논문리뷰] Video Generation Models are General-Purpose Vision Learners

본 논문은 컴퓨터 비전 분야가 여전히 개별 과제에 특화된 모델(Specialized Model) 단계에 머물러 있는 문제를 해결하고자 합니다 .

#Review #Video Generation #Foundation Models #Generalist Vision Intelligence #Diffusion Models #Spatiotemporal Priors #Perception Task-Agnostic #Synthetic Data

2026년 7월 12일

[논문리뷰] OpenCoF: Learning to Reason Through Video Generation

본 논문은 기존 비디오 생성 모델들이 시각적 사실성(Visual Realism)은 뛰어나지만, 정교한 논리적 추론(Reasoning) 능력이 부족하다는 문제점을 해결하고자 합니다.

#Review #Chain-of-Frame #Video Generation #Reasoning #OpenCoF-17K #Wan-CoF #Visual Reasoning Tokens #Textual Reasoning Tokens

2026년 7월 9일

[논문리뷰] GigaWorld-1: A Roadmap to Build World Models for Robot Policy Evaluation

로봇 파운데이션 모델의 발전에도 불구하고, 정책 성능을 평가하기 위한 물리적 로봇 실행은 여전히 높은 비용과 긴 시간이 소요되는 핵심 병목 구간입니다.

#Review #World Model #Robot Policy Evaluation #WMBench #Embodied AI #Video Generation #Policy Rollout

2026년 7월 6일

[논문리뷰] WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

본 논문은 기존 비디오 월드 모델이 시야를 벗어난 객체의 움직임과 정체성을 유지하지 못하는 문제를 해결하기 위해 WorldDirector를 제안합니다.

#Review #World Model #Video Generation #Dynamic Memory #Object Permanence #Controllable Simulation #Flow Matching #Spatial-Aware Control

2026년 7월 2일

[논문리뷰] PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation

본 논문은 최신 비디오 생성 모델들이 로봇 조작 과업에서 나타내는 물리적 불일치(Physical implausibility) 문제를 해결하고자 합니다.

#Review #Embodied Intelligence #Video Generation #World Models #Physics-aware #Robotic Manipulation #Hierarchical Alignment

2026년 6월 28일

[논문리뷰] LooseControlVideo: Directorial Video Control using Spatial Blocking

본 연구는 고품질 비디오 생성 모델에서 사용자 의도를 반영한 정밀한 3D 공간 제어와 복잡한 다중 객체 상호작용의 부재를 해결하고자 합니다.

#Review #Video Generation #Video Editing #Diffusion Transformer #3D-Aware Control #Spatial Blocking #DNOCS #Motion Orchestration

2026년 6월 18일

[논문리뷰] Current World Models Lack a Persistent State Core

본 논문은 현대의 World Models가 정교한 프레임을 생성할 수는 있으나, 관찰자가 보고 있지 않을 때에도 독립적으로 진화해야 하는 '지속적인 세계 상태(Persistent State Core)'를 결여하고 있다는 점을 지적합니다.

#Review #World Models #Persistent State #Viewpoint Intervention #WRBench #Video Generation #Diagnostic Benchmark #World-State Consistency

2026년 6월 18일

[논문리뷰] EgoCS-400K: An Egocentric Gameplay Dataset for World Models

본 논문은 대규모 상호작용 세계 모델(Interactive World Models) 학습을 위한 고품질의 영상-액션-언어 데이터셋 부족 문제를 해결하고자 한다.

#Review #World Models #Egocentric Video #Gaming Agent #Video Generation #Replay-grounded #Embodied AI

2026년 6월 16일

[논문리뷰] Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

본 연구는 로봇 공학에서 파편화된 행동 표현과 도메인별 시뮬레이션의 한계를 극복하기 위해 통합된 언어 기반의 월드 모델링을 제안한다. 기존 모델들은 특정 도메인(예: 조작, 주행)에 과적합되어 있거나 로봇 의존적인 제어 인터페이스를 요구하여 범용적인 로봇 학습 환경으로 사용하기 어렵다는 한계가 있다.

#Review #Embodied Intelligence #World Model #Video Generation #Language-Conditioned Action #Double-Stream MMDiT #Embodied World Knowledge

2026년 6월 15일

[논문리뷰] PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory

본 논문은 카메라 제어 비디오 생성에서 편집 작업(예: 스타일 변환, 객체 수정) 후 시간 및 시점 간의 일관성을 유지하는 문제를 해결합니다.

#Review #Video Generation #Context Memory #Disentangled Representation #Edit-aware #Consistency #Long-term Generation #Spatial Memory

2026년 6월 15일

[논문리뷰] OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

본 논문은 기존 비디오 생성 모델의 카메라 제어 방식이 지닌 정밀도 한계와 데이터 희소성 문제를 해결하기 위해 OmniDirector를 제안합니다.

#Review #Video Generation #Camera Control #Multi-shot Cloning #Diffusion Transformers #Camera Grid #Multimodal Control #Prompt Expansion

2026년 6월 14일

[논문리뷰] MilliVid: Hierarchical Latents for Long-Range Consistency in Video Generation

본 논문은 기존 비디오 생성 모델들이 직면한 긴 영상 생성 시 발생하는 Temporal Inconsistency와 정보의 누락 문제를 해결하고자 합니다. 기존의 프레임 단위 또는 짧은 세그먼트 기반의 생성 방식은 시간이 지날수록 전역적 구조를 잃어버리는 한계가 있습니다.

#Review #Video Generation #Hierarchical Latents #Long-Range Consistency #Diffusion Models #Latent Space #Spatiotemporal Modeling

2026년 6월 9일

[논문리뷰] Latent Spatial Memory for Video World Models

본 논문은 기존 비디오 월드 모델이 가진 3D 공간 일관성 유지의 한계와 과도한 계산 비용 문제를 해결하기 위해 Mirage를 제안한다.

#Review #Video Generation #Spatial Memory #3D-consistent Video Generation #Video World Models #Latent Space #Diffusion Models

2026년 6월 8일

[논문리뷰] Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

본 논문은 현대의 Image-to-Video(I2V) 생성 모델이 뛰어난 시각적 품질에도 불구하고 왜 기초적인 물리 법칙을 자주 위반하는가라는 핵심 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Physical Consistency #Phase Erosion #Latent Delta Guidance #Spectral Analysis #Training-Free

2026년 6월 7일

[논문리뷰] AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

기존의 interactive world model들은 주로 키보드/마우스 입력이나 단순한 텍스트 프롬프트에 의존하여, 인간의 실제 동작(full-body motion)에 기반한 자연스러운 상호작용을 반영하지 못하는 한계가 있습니다.

#Review #Embodied AI #Egocentric World Simulation #World Customization #Human Action Control #Anchor-View Priors #Video Generation

2026년 6월 7일

[논문리뷰] LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing

본 연구는 기존 Unified Video Generation 모델들이 대규모 파라미터(13B 이상)에 의존하고, 비디오 편집 시 소스 토큰 연결로 인해 연산 비용이 기하급수적으로 증가하는 문제를 해결하고자 합니다.

#Review #Video Generation #Video Editing #Multimodal Large Language Model (MLLM)#Diffusion Transformer (DiT)#Deepstack Injection #Scale-and-Add

2026년 6월 4일

[논문리뷰] DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

본 논문은 장기 비디오 생성 시 발생하는 시간적 일관성 부족과 계산 효율성 문제를 해결하기 위해 DecMem을 제안한다.

#Review #World Model #Video Generation #Long-horizon Extrapolation #Memory Architecture #Sparse Retrieval #Attention Dispersion

2026년 5월 31일

[논문리뷰] YoCausal: How Far is Video Generation from World Model? A Causality Perspective

본 논문은 최신 Video Diffusion Models (VDMs)가 진정한 의미의 세계 모델(World Model)로 발전하고 있는지, 아니면 단순히 통계적 시간 패턴을 과적합(overfit)하고 있는지를 검증하고자 합니다.

#Review #Video Generation #World Models #Causality #Violation of Expectation #Reverse Surprise Index #Causality Cognition Index #Diffusion Models

2026년 5월 28일

[논문리뷰] SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

본 논문은 비디오 생성 모델이 Sparse한 조건(Text, Start/End Frame)에만 의존함에 따라 발생하는 서사 구조 및 시간적 페이싱(Temporal Pacing) 제어의 한계를 극복하고자 SmartDirector를 제안합니다.

#Review #Video Generation #Keyframe-Conditioned #Narrative Pacing #Flow Matching #Multi-Chunk VAE #Director-Gen #Director-SR

2026년 5월 28일

[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

본 논문은 기존 Diffusion Transformers(DiTs) 기반 비디오 생성 모델이 가진 2차 복잡도의 연산 비용 문제를 해결하고, 고해상도 비디오 생성 효율을 높이는 것을 목표로 한다.

#Review #Video Generation #Diffusion Transformers #Sparse Attention #Sequence Parallelism #Quantization #Reinforcement Learning

2026년 5월 27일

[논문리뷰] EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

본 연구는 generative video foundation models의 빠른 발전으로 professional-grade cinematic synthesis에 대한 수요가 증가함에 따라, Reinforcement Learning (RL) 및 agentic workflows로의 전환에 필요한 신뢰할 수 있는 평가의 bottleneck 문제를 해결하고자 한다.

#Review #Video Generation #Benchmarking #Cinematic Quality #VLM #Chain-of-Thought #Human-Machine Alignment #Evaluation Framework #Reinforcement Learning

2026년 5월 26일

[논문리뷰] WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

최근 Interactive World Models의 발전에도 불구하고, 기존의 평가 방식은 단편적이며 체계적인 평가를 위한 통합된 표준이 부재하다.

#Review #Interactive World Models #Video Generation #Benchmark #Multi-turn Interaction #Evaluation Metrics

2026년 5월 25일

[논문리뷰] Geo-Align: Video Generation Alignment via Metric Geometry Reward

본 연구는 기존 비디오 생성 모델이 텍스트 프롬프트와의 의미적 정렬(Semantic Alignment)을 유지하는 데 있어 발생하는 낮은 일관성 문제를 해결하고자 합니다.

#Review #Video Generation #Alignment #Metric Geometry #Reward Model #Reinforcement Learning #Diffusion Models

2026년 5월 24일

[논문리뷰] Video Models Can Reason with Verifiable Rewards

본 논문은 기존의 비디오 생성 모델이 시각적 사실성(Perceptual Realism)은 뛰어나지만, 특정 논리적 제약을 만족해야 하는 추론 문제 해결에는 한계가 있다는 점을 지적합니다. 기존의 지도 학습(SFT) 방식은 생성된 영상의 외형적 패턴을 모방할 뿐, 영상 내부의 물리적·논리적 올바름을 보장하지 못합니다 .

#Review #Video Generation #Reinforcement Learning #Verifiable Rewards #Video Reasoning #Diffusion Models #Flow-Matching #RLVR

2026년 5월 19일

[논문리뷰] Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation

본 논문은 Autoregressive 비디오 확산 모델이 긴 비디오 생성 및 대화형 시나리오에서 겪는 기억 관리(KV Cache management)의 기능적 Entanglement 문제를 해결하고자 한다.

#Review #Video Generation #Autoregressive #KV Cache #Scene Memory #Long-form Video #Interactive Generation

2026년 5월 19일

[논문리뷰] CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

본 연구는 기존 비디오 생성 모델들이 사용자의 창의적 의도를 정확히 해석하지 못하고, 제어 가능성(Controllability)이 제한적이라는 문제 해결을 목표로 합니다. 기존 모델들은 단순한 텍스트-비디오 매핑에 의존하여 복잡한 물리적 제약이나 구체적인 카메라 움직임을 구현하는 데 한계를 보입니다.

#Review #Video Generation #Controllable Generation #Reasoning-Driven #Cognitive Intent #Multimodal Understanding #Latent Diffusion Models

2026년 5월 19일

[논문리뷰] Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

본 논문은 대규모 카메라 주석 데이터셋이나 복잡한 아키텍처 수정 없이, 사전 학습된 비디오 생성 모델의 잠재적 카메라 제어 능력을 활용하는 효율적인 방법을 제안합니다.

#Review #Video Generation #Camera Control #History Conditioning #LoRA #Zero-shot Learning

2026년 5월 14일

[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.

#Review #World Model #Diffusion Transformer #Long-context Modeling #Camera Control #6-DoF Trajectory #Efficiency #Video Generation

2026년 5월 14일

[논문리뷰] Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models

본 논문은 AR 비디오 확산 모델에서 발생하는 과도한 어텐션 연산 복잡도와 메모리 오버헤드 문제를 해결하고자 합니다. 기존 모델들은 생성된 프레임이 축적될수록 전체 KV Cache를 참조하도록 강제되어, 고해상도 및 장기 비디오 생성 시 효율성이 극도로 저하되는 한계가 있습니다 .

#Review #Autoregressive Video Diffusion #KV Cache Compression #Attention Head Specialization #Inference Efficiency #Video Generation

2026년 5월 14일

[논문리뷰] MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

본 논문은 음악 기반 댄스 비디오 생성 시 발생하는 모션의 비현실성과 시각적 일관성 부족 문제를 해결하는 것을 목표로 합니다. 기존 연구들은 주로 3D 모션 생성에만 집중하거나, 인물 이미지 애니메이션 기술을 그대로 적용하여 복잡한 댄스 동작을 제대로 처리하지 못하는 한계가 있습니다.

#Review #Music-Driven Dance #Video Generation #Mixture-of-Experts #Diffusion Model #BiMamba-Transformer #Guidance-Free Training

2026년 5월 10일

[논문리뷰] Video Generation with Predictive Latents

본 논문은 기존 Video VAE가 단순히 비디오의 시각적 재구성 성능을 최적화하는 것만으로는 우수한 비디오 생성(Generative Performance)을 보장할 수 없다는 문제점을 해결하고자 한다.

#Review #Video Generation #Video VAE #Predictive Learning #Latent Diffusion Models #Temporal Dynamics #Motion Prior #Spatiotemporal Compression

2026년 5월 5일

[논문리뷰] Seeing Fast and Slow: Learning the Flow of Time in Videos

본 연구는 기존 비디오 모델들이 물리적 세계의 시간 흐름을 이해하고 제어하지 못하는 근본적인 한계를 해결하고자 한다.

#Review #Video Generation #Slow-motion #Temporal Super-resolution #Self-supervised Learning #Video Forensics #Time-frequency Scaling

2026년 4월 23일

[논문리뷰] Seedance 2.0: Advancing Video Generation for World Complexity

본 연구는 기존 비디오 생성 모델이 가졌던 짧은 클립 생성 위주의 한계와 제한적인 제어 능력을 극복하고, 복잡한 실세계 시나리오에 대응하는 강력하고 조작 가능한(controllable) 비디오 합성 기술을 구현하는 데 목적이 있습니다.

#Review #Video Generation #Multimodal Foundation Model #Audio-Video Joint Generation #Controllability #Generative AI #Real-world Complexity

2026년 4월 15일

[논문리뷰] Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

본 연구에서는 Phantom이라 명명된 물리 주입형(Physics-Infused) 비디오 생성 프레임워크를 제안합니다. Phantom은 사전 학습된 비디오 확산 모델인 Wan2.2-TI2V를 기반으로 하며, 이에 병렬적인 물리 동역학 브랜치를 추가하여 latent 공간에서 물리적 상태를 예측합니다.

#Review #Video Generation #Physics-Infused #Flow Matching #Latent Dynamics #V-JEPA2 #Dual-Branch Architecture

2026년 4월 9일

[논문리뷰] Lighting-grounded Video Generation with Renderer-based Agent Reasoning

본 논문은 3D scene proxy를 통해 조명을 제어하는 LiVER 프레임워크를 제안한다. 먼저 Renderer-based Agent가 텍스트 명령을 분석하여 3D 구조를 생성하고, 이를 2D 렌더 패스(diffuse, rough/glossy GGX)로 변환하여 물리적 단서를 추출한다 .

#Review #Video Generation #Controllable Generation #Lighting-grounded #3D Scene Proxy #Diffusion Models #Physical Realism #Renderer-based Agent

2026년 4월 9일

[논문리뷰] MoRight: Motion Control Done Right

본 논문은 기존 비디오 생성 모델이 가진 카메라와 객체 동작의 얽힘(Entanglement) 문제와 인과 관계 추론의 부재를 해결하기 위해 MoRight 를 제안한다. 기존 연구들은 픽셀 기반의 트래킹 신호를 사용하므로 카메라 이동 시 모든 객체의 픽셀 궤적이 변하는 한계가 있어 정교한 동시 제어가 어렵다.

#Review #Video Generation #Disentangled Motion Control #Causal Motion Reasoning #Motion Dropout #Dual-stream Generation

2026년 4월 8일

[논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

본 논문은 기존의 대규모 비디오 확산 모델(Video Diffusion Models)이 고도로 역동적인 동작이나 정밀한 카메라 제어가 필요한 영상을 생성하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Synthetic Motion Data #Optical Flow #Camera Control

2026년 4월 2일

[논문리뷰] Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling

통신 기지국 기반의 시그널링 기록은 광범위한 모빌리티 데이터를 제공하지만, 기지국 수준의 거친 공간 해상도로 인해 정밀한 위치 기반 분석에는 한계가 존재합니다. 기존의 산업적 솔루션들은 핑퐁 효과 제거, 지도 매칭, 경로 추론 등 복잡한 다단계 엔지니어링 파이프라인에 의존하여 Latency 가 높고 자동화가 어렵습니다 .

#Review #Cellular Signaling #Video Generation #GPS Trajectory Reconstruction #Reinforcement Learning #Mobility Analytics #Sig2GPS

2026년 3월 30일

[논문리뷰] Toward Physically Consistent Driving Video World Models under Challenging Trajectories

자율 주행 시뮬레이션에서 비디오 월드 모델(Video World Models)은 실세계 데이터 수집의 비싼 비용과 고품질 물리 시뮬레이터의 대안으로 중요성이 커지고 있습니다. 기존 주행 월드 모델들은 일반적으로 실제 주행 데이터셋, 주로 안전하고 일반적인 시나리오에 훈련되어 있습니다.

#Review #Driving World Models #Physical Consistency #Video Generation #Challenging Trajectories #Autonomous Driving #Heterogeneous Dataset

2026년 3월 25일

[논문리뷰] WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

기존 비디오 월드 모델들은 액션에 조건화된 역학(action-conditioned dynamics)을 학습하는 데 어려움을 겪고 있는데, 이는 현재 데이터셋이 요구 사항을 충족하지 못하기 때문입니다.

#Review #World Modeling #Action-Conditioned Generation #Dataset #Generative ARPG #Explicit State Annotation #Video Generation #Long-Horizon Consistency

2026년 3월 24일

[논문리뷰] TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

Untextured 3D 모델에 대해 사진처럼 사실적이고 자체 일관성(self-consistent) 있는 외관을 자동으로 생성하는 것은 디지털 콘텐츠 제작 분야에서 중요한 도전 과제입니다.

#Review #Video Generation #3D Texturing #Geometric Consistency #Turntable Video #Diffusion Models #Neural Rendering

2026년 3월 22일

[논문리뷰] Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Distilled autoregressive (AR) video models는 efficient streaming generation을 가능하게 하지만, 종종 human visual preferences와 misalign되어 artifacts나 unnatural motion dynamics를 보입니다.

#Review #Video Generation #Distilled Autoregressive Models #Reinforcement Learning (RL)#Human Preferences #Streaming Generation #Forward-Process RL #Reward Hacking #Temporal Consistency

2026년 3월 22일

[논문리뷰] Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Coarse-Guided Visual Generation 은 deblurring, super-resolution 등 다양한 실제 애플리케이션에 필수적입니다.

#Review #Guided Visual Generation #Diffusion Model #Doob's h-Transform #Coarse-guided Generation #Training-free #Image Restoration #Video Generation #Weighted Sampling

2026년 3월 12일

[논문리뷰] Streaming Autoregressive Video Generation via Diagonal Distillation

대규모 확산 모델의 제한된 실시간 스트리밍 기능을 개선하고, 기존 자기회귀 모델의 높은 연산 비용으로 인한 낮은 품질 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Autoregressive Models #Diffusion Models #Distillation #Real-time #Streaming #Temporal Coherence #Flow Matching

2026년 3월 10일

[논문리뷰] WildActor: Unconstrained Identity-Preserving Video Generation

본 논문은 기존 비디오 생성 모델이 동적인 움직임, 시점 변화에도 불구하고 일관된 전신(full-body) 신원(identity)을 유지 하는 데 실패하고, 얼굴 중심적 편향, 자세 고정(pose locking) 등의 문제를 겪는다는 점을 지적합니다.

#Review #Video Generation #Identity Preservation #Human-Centric Video #Large-scale Dataset #Diffusion Models #Attention Mechanism #Viewpoint Consistency

2026년 3월 8일

[논문리뷰] Physical Simulator In-the-Loop Video Generation

본 논문은 확산 모델 기반 비디오 생성의 시각적 사실성이 물리 법칙(중력, 관성, 충돌 등)을 따르지 못하여 객체의 움직임이 일관성이 없고 비현실적인 문제를 해결하고자 합니다. 물리 시뮬레이터를 비디오 확산 과정에 통합하여 물리적으로 일관되고 시공간적으로 자연스러운 비디오 생성을 달성하는 것을 목표로 합니다.

#Review #Video Generation #Physical Simulation #Diffusion Models #Texture Consistency #Motion Controllability #Test-Time Optimization #4D Reconstruction

2026년 3월 8일

[논문리뷰] RealWonder: Real-Time Physical Action-Conditioned Video Generation

본 논문은 기존 비디오 생성 모델이 3D 물리적 액션(예: 힘, 로봇 조작)의 결과를 시뮬레이션하지 못하는 한계를 해결하고자 합니다. 단일 이미지에서 3D 물리적 액션에 조건화된 비디오를 실시간으로 생성 하여, 사용자가 물리적 상호작용의 결과를 즉시 확인할 수 있도록 하는 것을 목표로 합니다.

#Review #Video Generation #Physics Simulation #Real-Time #Action-Conditioned #3D Scene Reconstruction #Diffusion Models #Optical Flow

2026년 3월 5일

[논문리뷰] DreamWorld: Unified World Modeling in Video Generation

기존 비디오 생성 모델들이 시각적 사실성만을 추구하고 세계에 대한 일관된 이해가 부족한 한계를 해결하는 것이 목표입니다. 물리적 상식, 3D 및 시간적 일관성과 같은 이질적인 세계 지식 을 비디오 생성기에 통합하고, 이로 인해 발생하는 시각적 불안정성과 시간적 깜빡임 문제를 완화하고자 합니다.

#Review #Video Generation #World Modeling #Diffusion Models #Multi-modal Integration #Temporal Consistency #Spatial Geometry #Semantic Consistency #Constraint Annealing

2026년 3월 5일

[논문리뷰] Helios: Real Real-Time Long Video Generation Model

논문은 단일 NVIDIA H100 GPU 에서 19.5 FPS 로 실시간 분 단위 비디오를 생성하고, 기존의 안티-드리프팅(anti-drifting) 휴리스틱이나 가속화 기술 없이도 강력한 품질을 유지하는 최초의 14B 비디오 생성 모델 인 Helios를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Real-Time #Long Video #Diffusion Transformers #Anti-Drifting #Memory Optimization #Distillation #Autoregressive Models

2026년 3월 4일

[논문리뷰] Kling-MotionControl Technical Report

논문은 드라이빙 비디오와 참조 이미지를 기반으로 사실적이고 제어 가능한 홀리스틱 캐릭터 애니메이션 비디오를 생성 하는 것을 목표로 합니다.

#Review #Character Animation #Video Generation #Diffusion Transformers (DiT)#Motion Control #Identity Preservation #Cross-Identity Transfer #Inference Acceleration #Multi-Granular Motion

2026년 3월 3일

[논문리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

본 논문은 카메라 안내 비디오 생성 모델(VDMs)이 일관된 3D 장면을 재구성하는 데 겪는 한계, 특히 제한적인 카메라 제어 및 여러 시점에서의 내용 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #3D Reconstruction #Camera Control #Diffusion Models #Geometric Memory #Multi-View Consistency #World Model

2026년 3월 2일

[논문리뷰] SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

확산 모델의 추론 과정을 가속화하는 것이 목표입니다. 특히, 기존의 휴리스틱 기반 캐싱 방법들이 가진 이론적 근거 부족과 정적 캐싱 스케줄의 한계를 극복하고, 모델 출력 품질을 유지하면서 계산 비용을 줄일 수 있는 원칙적인(principled) 민감도 기반 캐싱 프레임워크 를 제안합니다.

#Review #Diffusion Models #Inference Acceleration #Caching #Sensitivity Analysis #Dynamic Caching #Video Generation #Denoising

2026년 3월 1일

[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation Models

이 논문은 비디오 파운데이션 모델(VFM)의 통합된 역량을 평가하기 위한 파편화되고 제한적인 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Video Foundation Models #Unified Evaluation #Multi-task Learning #Video Understanding #Video Generation #Video Editing #Video Reconstruction #Agentic Evaluation #Cinematic Dimensions

2026년 2월 25일

[논문리뷰] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

확산 모델의 느린 추론 속도를 개선하기 위해 기존 캐싱 방법론이 원시 특징(raw feature) 차이 에만 의존하여 콘텐츠와 노이즈를 혼합하고, 이로 인해 스펙트럼 진화(spectral evolution) 를 간과하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #Model Acceleration #Feature Caching #Spectral Analysis #Generative AI #Image Generation #Video Generation #Latency Reduction

2026년 2월 25일

[논문리뷰] A Very Big Video Reasoning Suite

본 논문은 비디오 모델의 시각적 품질 향상에 비해 미개척된 추론 능력 을 체계적으로 연구하기 위한 기반을 마련하는 것을 목표로 합니다. 특히, 대규모의 다양하고 검증 가능한 비디오 추론 학습 데이터의 부족과 신뢰할 수 있는 평가 프레임워크의 부재 문제를 해결하고자 합니다.

#Review #Video Reasoning #Large-scale Dataset #Benchmark #Cognitive Architecture #Scaling Studies #Video Generation #Generalization #Rule-based Evaluation

2026년 2월 23일

[논문리뷰] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

본 논문은 기존 비디오 월드 모델이 가진 제한적인 제어 신호(텍스트 또는 키보드) 의 한계를 극복하고, 사용자의 머리 및 손 움직임 추적 데이터 를 활용하여 사람 중심의 인터랙티브 가상 환경 을 생성하는 것을 목표로 합니다.

#Review #Video Generation #Extended Reality (XR)#Diffusion Models #Human-Computer Interaction #Hand Pose Estimation #Camera Control #World Simulation #Interactive AI

2026년 2월 22일

[논문리뷰] Unified Latents (UL): How to train your latents

확산 모델을 위한 레이턴트 표현 학습에 있어 정보 내용과 재구성 품질 간의 근본적인 트레이드오프 문제를 해결하고자 합니다.

#Review #Diffusion Models #Latent Representation Learning #VAE #Image Generation #Video Generation #Bitrate Control #Training Efficiency #Diffusion Prior #Diffusion Decoder

2026년 2월 19일

[논문리뷰] SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

이 논문은 비디오 확산 모델에서 높은 희소성(sparsity)에서도 생성 품질 저하 없이 효율적인 학습 가능한(trainable) 스파스 어텐션 을 구현하는 것을 목표로 합니다.

#Review #Sparse Attention #Diffusion Models #Video Generation #Hybrid Masking #Distillation Fine-Tuning #Model Acceleration #Top-k #Top-p

2026년 2월 19일

[논문리뷰] SLA2: Sparse-Linear Attention with Learnable Routing and QAT

본 논문은 기존 Sparse-Linear Attention (SLA)의 한계, 즉 주의 가중치 크기에 기반한 휴리스틱 기반의 어텐션 분할 과 희소 및 선형 어텐션 출력 간의 불일치 를 해결하는 것을 목표로 합니다.

#Review #Sparse-Linear Attention #Diffusion Models #Video Generation #Learnable Routing #Quantization-Aware Training #Attention Acceleration #Model Optimization

2026년 2월 18일

[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models

본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.

#Review #Reinforcement Learning #World Models #Video Generation #Autoregressive Generation #Long-Horizon #Post-training #Diffusion Models #Reward Functions

2026년 2월 9일

[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

본 논문은 기존 MLLMs가 겪는 미세한 공간 이해 및 연속적인 행동 계획의 한계를 극복하고, 복잡한 시각적 추론을 위한 새로운 패러다임을 제시하는 것을 목표로 합니다.

#Review #Video Generation #Visual Reasoning #Zero-Shot Generalization #Test-Time Scaling #Visual Context #Sequential Planning #Continuous Manipulation

2026년 2월 5일

[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?

본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다.

#Review #Video Generation #Implicit Reasoning #Benchmark #Evaluation #Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)

2026년 2월 5일

[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long Context

이 논문은 현재 자동회귀 비디오 생성 모델들이 짧은 컨텍스트 윈도우와 학생-교사 불일치로 인해 장기적인 일관성(forgetting-drifting dilemma)을 유지하기 어렵다는 문제를 해결하고자 합니다.

#Review #Video Generation #Autoregressive Models #Long Context #Temporal Consistency #Diffusion Models #Context Forcing #Memory Management #Distribution Matching Distillation

2026년 2월 5일

[논문리뷰] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

본 논문은 정적 이미지에 운전 비디오의 움직임을 적용하여 고품질 애니메이션 비디오를 생성하는 캐릭터 이미지 애니메이션의 두 가지 근본적인 문제점을 해결하고자 합니다.

#Review #Character Animation #Image Animation #Spatiotemporal Learning #In-Context Learning #Diffusion Models #Motion Transfer #Generalization #Video Generation

2026년 2월 1일

[논문리뷰] Advancing Open-source World Models

본 논문은 기존 비디오 생성 모델의 한계(데이터 희소성, 장기 일관성 부족, 실시간 상호작용의 어려움, 독점적 솔루션)를 극복하고, 가상 세계의 역학을 학습하며 실시간으로 렌더링할 수 있는 오픈 소스 세계 모델(world model) 인 LingBot-World를 개발하는 것을 목표로 합니다.

#Review #World Models #Open-source AI #Video Generation #Real-time Simulation #Long-term Memory #Action-Conditioned Learning #Generative Models #Embodied AI

2026년 1월 28일

[논문리뷰] SkyReels-V3 Technique Report

본 논문은 SkyReels-V3 를 통해 시각적 참조, 비디오, 오디오 및 텍스트 입력을 통합하여 유연하고 제어 가능한 비디오 생성을 가능하게 하는 통합 멀티모달 조건부 비디오 생성 프레임워크 를 제시하는 것을 목표로 합니다.

#Review #Video Generation #Multimodal AI #Diffusion Models #Transformer Architecture #Reference-guided Generation #Video-to-Video #Audio-driven Animation #Temporal Consistency

2026년 1월 26일

[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

비디오 Diffusion Transformer의 긴 입력 시퀀스로 인해 발생하는 높은 계산 지연 시간 문제를 해결하고, 기존의 스파스 어텐션 방식이 가진 제한된 스파시티 또는 과도한 학습 오버헤드 의 한계를 극복하고자 합니다.

#Review #Video Diffusion Models #Sparse Attention #Linear Attention #Computational Efficiency #Transformer Tuning #Video Generation #LoRA #Gating Mechanism

2026년 1월 25일

[논문리뷰] Rethinking Video Generation Model for the Embodied World

본 연구는 로봇 상호작용을 정확하게 반영하는 고품질 비디오 생성의 어려움을 해결하고, 표준화된 벤치마크 부족으로 인한 공정한 비교 및 발전의 한계를 극복하는 것을 목표로 합니다. 궁극적으로 로봇 학습 및 행동 예측을 위한 비디오 생성 모델의 실제 적용 가능성을 높이고, 신체화된 AI의 발전을 가속화하고자 합니다.

#Review #Video Generation #Embodied AI #Robotics Benchmark #RBench #Robotics Dataset #RoVid-X #Physical Plausibility #Task Completion

2026년 1월 21일

[논문리뷰] OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

기존 비디오 커스터마이징 방법론들이 레퍼런스 비디오의 풍부한 시공간 정보를 충분히 활용하지 못하여, 유연성과 일반화가 제한되는 문제를 해결하고자 합니다.

#Review #Video Transfer #Diffusion Models #Spatio-temporal Learning #Multimodal Alignment #Appearance Consistency #Temporal Control #Video Generation

2026년 1월 20일

[논문리뷰] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

본 논문은 기존 단일 인물 애니메이션 방법론이 다중 인물, 다양한 캐릭터 유형, 그리고 레퍼런스 이미지와 드라이빙 포즈 간의 공간적 불일치(spatial misalignment) 문제를 해결하지 못하는 한계를 지적합니다.

#Review #Multi-subject Animation #Pose-driven Animation #Diffusion Models #Spatial Misalignment #Unbind-Rebind Paradigm #Character Animation #Video Generation

2026년 1월 19일

[논문리뷰] Transition Matching Distillation for Fast Video Generation

대규모 비디오 Diffusion 모델이 고품질 비디오를 생성하지만, 다단계 샘플링 과정의 비효율성으로 인해 실시간 상호작용 애플리케이션에 적용하기 어렵다는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Model Distillation #Few-Step Sampling #Transition Matching #Flow Matching #DMD2 #Efficiency

2026년 1월 15일

[논문리뷰] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

본 논문은 확산 모델 기반 비디오 생성의 높은 계산 비효율성 문제를 해결하고, 정적 장면에 대한 카메라 제어 비디오 생성 을 위한 효율적인 프레임워크를 제안하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #3D Reconstruction #3D Gaussian Splatting #Camera-Controlled #Sparse Keyframes #Real-time #Computational Efficiency

2026년 1월 14일

[논문리뷰] Motion Attribution for Video Generation

본 논문은 비디오 생성 모델에서 생성된 비디오의 움직임(motion) 에 영향을 미치는 훈련 클립을 식별하는 것을 목표로 합니다.

#Review #Motion Attribution #Video Generation #Diffusion Models #Gradient-based Attribution #Temporal Dynamics #Motion Masking #Fine-tuning #Data Curation

2026년 1월 13일

[논문리뷰] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

Transformer의 핵심 모듈인 Self-Attention의 2차 시간 복잡성 으로 인한 확장성 문제를 해결하고자 합니다.

#Review #Linear Attention #Multi-Head Attention #Transformer #Global Context Collapse #Representational Diversity #Image Generation #NLP #Video Generation

2026년 1월 12일

[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.

#Review #Generative World Models #Autonomous Driving #Video Generation #Benchmark #Evaluation Metrics #Trajectory Prediction #Temporal Consistency #Data Diversity

2026년 1월 12일

[논문리뷰] VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

비디오 생성 분야에서 Diffusion 및 Flow-Matching 모델 의 높은 계산 비용과 확장성 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Autoregressive Models #Next-Frame Prediction #Multi-scale Prediction #Temporal Consistency #Visual Autoregressive #Error Propagation

2026년 1월 11일

[논문리뷰] Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

기존 비디오 생성 '월드 모델'이 복잡한 물리적 작업을 위한 정확한 목표를 지정하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #World Models #Physics-Conditioned Goals #Causal Planning #Force Vectors #Zero-Shot Generalization #Diffusion Models #Robotics Planning

2026년 1월 11일

[논문리뷰] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

본 논문은 기존 비디오 월드 모델들이 카메라 및 다중 객체 모션에 대한 통합적이고 정밀한 제어에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Video World Model #4D Geometric Control #Gaussian Trajectories #Video Generation #Diffusion Models #Camera Control #Object Motion Control #Data Engine

2026년 1월 8일

[논문리뷰] RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation

로봇 조작 데이터 수집의 어려움으로 인한 데이터 부족 및 다양성 한계를 극복하고, 기존 생성 모델이 간과했던 멀티-뷰(multi-view) 및 시간적 일관성(temporal coherence) 문제를 해결하여 로봇 정책 훈련에 필요한 고품질의 증강 데이터를 생성하는 것이 목표입니다.

#Review #Robot Manipulation #Data Augmentation #Video Generation #Diffusion Models #Multi-View #Visual Identity Prompting #Action-Guided Segmentation #Visuomotor Policy

2026년 1월 8일

[논문리뷰] NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

본 연구는 기존 4D 세계 모델링 방법론의 확장성 한계(고비용의 특수 다중 뷰 데이터 및 번거로운 오프라인 전처리)를 극복하고자 합니다. 이를 위해 다양한 in-the-wild 단일 뷰 영상 으로부터 4D 재구성 및 새로운 경로 영상 생성 이 가능한 다재다능하고 확장성 높은 4D 세계 모델 NeoVerse 를 제안합니다.

#Review #4D World Model #Gaussian Splatting #Monocular Video #Novel View Synthesis #Video Generation #Feed-Forward Reconstruction #Degradation Simulation

2026년 1월 4일

[논문리뷰] Pretraining Frame Preservation in Autoregressive Video Memory Compression

본 논문은 오토회귀 비디오 생성 모델에서 발생하는 긴 비디오 컨텍스트 처리의 한계 와 컨텍스트 품질 및 길이 간의 트레이드오프 문제를 해결하고자 합니다.

#Review #Video Compression #Autoregressive Models #Memory Compression #Frame Preservation #Pretraining #Video Generation #Diffusion Models #Long-Range Consistency

2025년 12월 31일

[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

기존 멀티모달 LLM(MLLM)이 이미지-텍스트에 치중하거나 영상과 오디오를 별개로 처리하여 동기화된 사운딩 비디오(synchronized sounding video)의 정밀한 시공간적 정렬을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Sounding Video #Video Comprehension #Video Generation #Audio-Video Synchronization #Instruction Tuning #Diffusion Model #Encoder-Decoder

2025년 12월 31일

[논문리뷰] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

본 논문은 수술 로봇 학습의 주요 병목인 시각 관측 및 정확한 로봇 움직임 데이터의 부족 문제 를 해결하고자 합니다. 대량의 수술 비디오가 존재하지만 로봇 액션 레이블이 없어 모방 학습에 직접 활용하기 어렵습니다. 따라서, 세계 모델을 통해 일반화 가능하고 데이터 효율적인 수술 로봇 정책 을 학습하는 것을 목표로 합니다.

#Review #Surgical Robotics #World Models #Video Generation #Imitation Learning #Inverse Dynamics Model #Synthetic Data #Vision-Language-Action Models #Data Scarcity

2025년 12월 29일

[논문리뷰] SVBench: Evaluation of Video Generation Models on Social Reasoning

현재 텍스트-투-비디오(T2V) 생성 모델이 시각적 사실성과 모션 충실도에서 발전했음에도 불구하고, 사회적으로 일관된 행동 을 생성하는 데 근본적인 한계가 있음을 지적합니다.

#Review #Video Generation #Social Reasoning #Benchmark #Evaluation #Agent-based Pipeline #Vision-Language Models #Social Cognition

2025년 12월 28일

[논문리뷰] Spatia: Video Generation with Updatable Spatial Memory

기존 비디오 생성 모델들이 직면한 장기적인 공간 및 시간적 일관성 유지의 어려움 을 해결하는 것을 목표로 합니다. 이를 위해 업데이트 가능한 3D 장면 포인트 클라우드 를 영구적인 공간 메모리로 활용하는 프레임워크인 Spatia를 제안하여, 고차원 비디오 신호의 밀집된 특성으로 인한 한계를 극복하고자 합니다.

#Review #Video Generation #Spatial Memory #3D Scene Point Cloud #Spatial Consistency #Camera Control #Interactive Editing #Diffusion Models #Visual SLAM

2025년 12월 25일

[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.

#Review #Video Generation #Diffusion Models #Acceleration #Quantization #Attention #Step Distillation #Performance Optimization #RTX 5090

2025년 12월 24일

[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

본 논문은 기존 비디오 생성 모델들이 시각적 연속성과 시간적 일관성을 유지하지 못하는 '원샷' 비디오 생성의 한계를 해결하고자 합니다.

#Review #Video Generation #One-Shot Video #Diffusion Transformer (DiT)#Frame-Guided Generation #Auto-Regressive Generation #Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)

2025년 12월 24일

[논문리뷰] SemanticGen: Video Generation in Semantic Space

기존 비디오 생성 모델의 느린 수렴 속도 와 긴 비디오 생성 시 높은 계산 비용 이라는 한계를 해결하는 것을 목표로 합니다. 비디오의 내재된 중복성을 활용하여 컴팩트하고 높은 수준의 의미 공간(semantic space) 에서 비디오를 생성함으로써 효율성과 품질을 동시에 개선하고자 합니다.

#Review #Video Generation #Semantic Space #Diffusion Models #VAE Latents #Long Video Generation #Semantic Encoders #Generative AI

2025년 12월 23일

[논문리뷰] Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

본 연구는 로봇 학습에서 공간 일반화 및 정책 견고성을 제한하는 다양한 로봇 시연 데이터 수집의 높은 비용 문제를 해결하고자 합니다. 특히, 제한된 수의 실제 시연으로부터 사실적이고 다양한 새로운 로봇 시연을 효율적으로 생성 하여 데이터 효율성을 획기적으로 개선하는 프레임워크를 제안합니다.

#Review #Robotics #Demonstration Generation #3D Control Interface #Data Efficiency #Visuomotor Policy Learning #Spatial Generalization #Depth Map #Video Generation

2025년 12월 22일

[논문리뷰] Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

논문은 카메라 제어 가능한 동적 장면 비디오 생성에서 높은 카메라 포즈 충실도 와 뷰 일관성 을 유지하며, 가려진 기하학에 대해 추론하는 문제를 해결하는 것을 목표로 합니다. 특히, 기존의 깊이 재투영 기반 방법론의 부정확한 깊이 추정 오류와 궤적 조건부 모델의 데이터셋 편향 문제를 극복하고자 합니다.

#Review #Video Generation #Camera Control #Homography #Diffusion Models #Data Augmentation #Novel View Synthesis #Pose Fidelity

2025년 12월 22일

[논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

본 논문은 기존 텍스트 전용 또는 궤적 기반 이미지-투-비디오(I2V) 생성 모델의 한계를 극복하고, 더욱 풍부하고 사용자 지향적인 '프롬프트 가능한 월드 이벤트' 시뮬레이션을 가능하게 하는 것을 목표로 합니다.

#Review #World Models #Video Generation #Multimodal Control #Trajectory Guidance #Reference Images #Promptable Events #Cross-Attention #Diffusion Models

2025년 12월 18일

[논문리뷰] StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

본 논문은 스테레오 비디오 변환 시 기존의 다단계 “Depth-Warp-Inpaint” (DWI) 파이프라인이 겪는 오류 전파, 깊이 모호성, 그리고 병렬 및 수렴 스테레오 형식 간의 불일치 문제를 해결하고자 합니다.

#Review #Monocular-to-Stereo Conversion #Video Generation #Diffusion Models #Feed-Forward Architecture #Domain Switcher #Cycle Consistency #Unified Dataset #Depth Ambiguity

2025년 12월 18일

[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

본 논문은 오디오와 비디오를 통합적으로 생성하는 기반 모델(foundation model) 인 Seedance 1.5 pro를 소개합니다.

#Review #Audio-Visual Generation #Diffusion Transformer #Multimodal AI #Speech Synchronization #Video Generation #Reinforcement Learning from Human Feedback #Inference Acceleration

2025년 12월 18일

[논문리뷰] Kling-Omni Technical Report

논문은 단편적인 비디오 생성, 편집, 추론 태스크들을 통합하여 멀티모달 시각 언어(MVL) 입력 으로부터 고품질 비디오를 직접 합성하는 범용 생성 프레임워크인 Kling-Omni 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Multimodal Visual Language #Generative AI #Video Editing #Reasoning-enhanced Generation #Diffusion Transformer #Multi-modal World Simulators

2025년 12월 18일

[논문리뷰] FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

본 논문은 확산 모델 기반의 기존 장시간 인물 애니메이션 방법론이 겪는 신원(ID) 불일치 및 높은 추론 지연 시간 문제를 해결하고자 합니다. 특히, ID를 보존 하면서 무한 길이의 비디오 를 생성하고, 추론 속도를 최대 6배까지 가속 하는 것을 목표로 합니다.

#Review #Portrait Animation #Diffusion Models #Inference Acceleration #Identity Preservation #Video Generation #Latent Prediction #Sliding Window

2025년 12월 18일

[논문리뷰] V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

논문은 기존 비디오 생성 모델에서 물리적으로 사실적인 비디오 편집을 위한 내재적 속성(intrinsic properties) 에 대한 정확하고 일관된 제어의 부재 문제를 해결하고자 합니다.

#Review #Video Editing #Intrinsic Decomposition #Video Generation #Diffusion Models #Keyframe Editing #Inverse Rendering #Temporal Consistency #Physically Based Rendering

2025년 12월 14일

[논문리뷰] Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

본 논문은 비디오 생성 모델, 특히 diffusion 모델 이 관절형 및 변형 가능한 객체에 대해 물리적으로 그럴듯하고 구조를 보존하는 움직임을 생성하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Video Generation #Motion Tracking #Diffusion Models #Structure Preservation #SAM2 #Feature Distillation #Local Gram Flow

2025년 12월 14일

[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvas

MLLM이 복잡한 시각 정보를 이해하는 데는 뛰어나지만, 이미지 및 비디오 생성 시에는 그 추론 및 계획 능력이 충분히 활용되지 못해 정밀하고 구조화된 제어에 어려움을 겪는 간극을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Diffusion Models #Image Generation #Video Generation #Image Editing #Video Editing #Latent Space Planning #Canvas Tokens #Information Transfer

2025년 12월 14일

[논문리뷰] Evaluating Gemini Robotics Policies in a Veo World Simulator

이 논문은 현실감, 확장성, 안전성 측면에서 기존 물리 기반 시뮬레이터가 가진 한계를 극복하고, 제너럴리스트 로봇 정책 평가를 위한 새로운 방법론을 제시합니다.

#Review #Robotics #Policy Evaluation #World Model #Video Generation #Out-of-Distribution (OOD)#Safety #Gemini Robotics #Veo Simulator

2025년 12월 11일

[논문리뷰] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

자율 주행 시스템이 제한된 세계 지식 과 시각적 동적 모델링 부족 으로 인해 롱테일 시나리오에서 겪는 어려움을 해결하는 것이 목표입니다.

#Review #Autonomous Driving #End-to-End Learning #Vision-Language Models #World Model #Chain-of-Thought #Video Generation #Trajectory Planning #Multimodal Learning

2025년 12월 10일

[논문리뷰] StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

기존 단안 비디오 생성 모델의 스테레오 기능 부재 및 취약한 pose estimation/multi-stage warping 파이프라인으로 인한 스테레오 비디오 생성의 한계를 극복하는 것이 목표입니다.

#Review #Monocular-to-Stereo #Video Generation #Diffusion Models #Geometry-Aware #XR #IPD-aligned Dataset #Novel View Synthesis

2025년 12월 10일

[논문리뷰] Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

기존 모션 제어 비디오 생성 모델의 낮은 제어 정밀도, 제한된 확장성 및 비실용적인 출력 품질 문제를 해결하고자 합니다.

#Review #Video Generation #Motion Control #Latent Trajectory Guidance #Image-to-Video #Diffusion Models #Neural Networks #MoveBench

2025년 12월 9일

[논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

본 논문은 다양한 장기 로봇 조작 데이터의 부족과 기존 비디오 생성 모델의 한계를 극복하여, 물리적으로 그럴듯하고 논리적으로 일관된 장기 로봇 조작 비디오 를 합성하는 것을 목표로 합니다. 특히 수동으로 정의된 궤적에 의존하지 않고 자율적인 데이터 합성을 가능하게 하는 데 중점을 둡니다.

#Review #Video Generation #Robotic Manipulation #Hierarchical Framework #Reinforcement Learning #Diffusion Models #World Models #Cognitive Science #Physical Alignment

2025년 12월 9일

[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

기존 비디오 생성 모델들이 단일 모달리티 조건화 및 제한된 모달 다양성으로 인해 세계를 총체적으로 이해하는 데 한계 가 있음을 지적하며, 이를 극복하기 위해 다중 모달리티(세분화 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵) 및 다중 훈련 패러다임 을 통합하여 세계 인식 비디오 생성 을 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Multi-modal Learning #Multi-task Learning #Zero-shot Generalization #Diffusion Models #World Models #Video Understanding

2025년 12월 8일

[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

본 연구는 자율 주행 환경에서 고품질의 카메라 제어 기반 신규 궤적 비디오 생성 문제를 해결하고자 합니다. 기존 복원(repair) 기반 방법들이 복잡한 아티팩트에 취약하고, LiDAR 기반 접근 방식이 데이터의 희소성과 불완전성으로 인해 기하학적 불일치를 겪는 한계를 극복하는 것이 목표입니다.

#Review #Video Generation #Camera Control #Novel Trajectory #3D Gaussian Splatting (3DGS)#LiDAR-Free #Diffusion Models #Autonomous Driving #Scene Synthesis

2025년 12월 8일

[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing

논문은 대규모 움직임, 빈번한 손-객체 상호작용 등 독특한 도전 과제를 가진 자기중심적(egocentric) 비디오 편집 을 위한 포괄적인 생태계를 구축하는 것을 목표로 합니다.

#Review #Egocentric Video Editing #Real-Time Streaming #Augmented Reality #Video Generation #Dataset #Benchmark #Diffusion Models #Distillation

2025년 12월 8일

[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations

기존 캐릭터 애니메이션 방법론이 복잡한 모션, 크로스-아이덴티티 애니메이션, 다중 캐릭터 상호작용 등 스튜디오 수준의 제작 요구 사항을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Character Animation #3D Pose Representation #In-Context Learning #Diffusion Transformer #Studio-Grade Animation #Spatio-Temporal Reasoning #Video Generation

2025년 12월 7일

[논문리뷰] ProPhy: Progressive Physical Alignment for Dynamic World Simulation

기존 비디오 생성 모델들이 대규모 또는 복잡한 다이내믹스에서 물리적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Physics-aware #World Simulation #Progressive Alignment #Mixture-of-Experts #Vision-Language Models #Token-level Routing

2025년 12월 7일

[논문리뷰] TV2TV: A Unified Framework for Interleaved Language and Video Generation

본 논문은 복잡한 시맨틱 추론이나 반복적인 고수준 계획이 필요한 비디오 생성에서 기존 모델들이 겪는 한계를 극복하고자 합니다. 비디오 생성을 텍스트와 비디오 생성의 교차 프로세스로 분해함으로써 시각적 품질과 사용자 제어 가능성을 획기적으로 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Language Modeling #Multimodal AI #Interleaved Generation #Flow Matching #Transformer #Controllability #World Models

2025년 12월 4일

[논문리뷰] BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

본 논문은 기존 비디오 확산 모델의 고질적인 문제점인 장면 역학과 카메라 모션 간의 결합을 해소하고, 시간과 카메라 포즈를 명시적으로 분리하여 제어 하는 4D-controllable 비디오 생성 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #4D Control #Camera Pose Control #Time Control #Positional Encoding #Adaptive Normalization #Synthetic Dataset

2025년 12월 4일

[논문리뷰] RELIC: Interactive Video World Model with Long-Horizon Memory

논문은 실시간 장기 스트리밍, 일관된 공간 메모리, 정밀한 사용자 제어라는 세 가지 핵심 요소를 동시에 만족하는 상호작용 가능한 비디오 월드 모델 을 구축하는 것을 목표로 합니다. 기존 접근 방식들이 이 중 하나만을 다루거나, 장기 메모리 메커니즘이 실시간 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Interactive World Model #Video Generation #Long-Horizon Memory #Real-Time Streaming #Diffusion Models #Autoregressive Models #Spatial Consistency #Unreal Engine

2025년 12월 3일

[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

본 논문은 비디오 생성 모델이 시각 데이터(비디오 컨텍스트) 만을 사용하여 인간의 인지와 유사한 시공간 지능(Visuospatial Intelligence) 을 발휘할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Video Generation #Spatial Reasoning #Visuospatial Intelligence #Diffusion Models #Context-Guided Generation #Scene Navigation #Object Grounding #Out-of-Domain Generalization

2025년 12월 2일

[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AI

현재 다중 모달 대규모 언어 모델( MLLM )과 비디오 생성 모델( VGM )이 실제 물리적 역학을 인지하고 예측하는 능력을 충분히 지원하는지 이해하는 데 한계가 있습니다.

#Review #Physical AI #Benchmark #Video Generation #Conditional Video Generation #Video Understanding #Multimodal LLMs #Physical Plausibility #Embodied Reasoning

2025년 12월 2일

[논문리뷰] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

본 논문은 기존의 카메라 제어 비디오 생성 모델들이 겪는 장면 이해 및 기하학적 인식 부족 문제를 해결하여, 지정된 카메라 궤적에 더욱 충실하고 기하학적으로 일관된 비디오를 생성하는 것을 목표로 합니다. 특히 깊이(depth) 정보를 효과적으로 통합하여 카메라 제어 비디오 생성의 정확도를 높이는 데 중점을 둡니다.

#Review #Diffusion Models #Video Generation #Camera Control #Depth Estimation #Dual-Branch Architecture #Geometric Awareness #Semantic Alignment #Multi-modal Fusion

2025년 12월 2일

[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

본 연구는 오디오-비디오 공동 노이즈 제거 훈련이 비디오 품질에만 중점을 둘 때도 비디오 생성 성능을 향상시키는 근본적인 질문에 답하는 것을 목표로 합니다.

#Review #Video Generation #Audio-Video Multimodal #Joint Denoising #Diffusion Models #Transformer Architecture #World Models #Physical Commonsense #Multimodal Training

2025년 12월 2일

[논문리뷰] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

본 논문은 블록 확산 모델을 사용하여 분 단위 길이의 고품질 및 일관된 비디오를 생성하는 데 따르는 주요 과제들을 해결하는 것을 목표로 합니다. 특히, KV-캐시(KV-cache)로 인한 장기적 오류 누적 문제와 세밀한 긴 비디오 벤치마크 및 일관성 측정 지표의 부족 을 해결하고자 합니다.

#Review #Block Diffusion #Video Generation #Temporal Consistency #KV Cache #Semi-Autoregressive #Video Quality Metrics #Long Video Generation

2025년 12월 2일

[논문리뷰] What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

최신 비디오 확산 모델이 시각적으로는 인상적이지만, 물체 부유, 가속도 불일치, 충돌 비현실성 등 기본적인 물리 법칙을 위반하는 문제점을 해결하는 것이 목표입니다.

#Review #Video Generation #Diffusion Models #Newtonian Dynamics #Physics-aware AI #Post-Training #Verifiable Rewards #Optical Flow #Mass Estimation

2025년 12월 1일

[논문리뷰] Seeing the Wind from a Falling Leaf

본 연구는 영상 데이터로부터 나뭇잎이 떨어지는 바람과 같이 눈에 보이지 않는 물리적 힘(invisible forces)을 추정하는 것을 목표로 합니다. 인간이 시각적 단서만으로 보이지 않는 물리적 효과를 인지하는 능력을 모방하여, 비전과 물리학 간의 간극을 줄이고 픽셀 뒤의 물리적 과정을 이해하는 데 기여하고자 합니다.

#Review #Inverse Graphics #Differentiable Physics #Force Estimation #Video Generation #Material Point Method #3D Gaussians #Spatio-temporal Modeling #Vision-Language Models

2025년 12월 1일

[논문리뷰] Video Generation Models Are Good Latent Reward Models

비디오 생성 모델을 인간의 선호도에 맞춰 정렬하는 Reward Feedback Learning (ReFL) 의 기존 한계, 즉 높은 메모리 사용량, 긴 훈련 시간, 초기 생성 단계 감독 부족 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Reward Feedback Learning #Latent Space #Diffusion Models #Human Preferences #Motion Quality #Process-aware

2025년 11월 27일

[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

기존 비디오 확산 모델의 비효율성 및 고정 길이 제약과 AR 모델의 낮은 품질 및 병렬화 불가능 문제를 극복하고자 합니다.

#Review #World Simulation #Video Generation #Block Diffusion #Semi-Autoregressive #KV Cache Management #Inference Engine #Long Video Generation #Performance Optimization

2025년 11월 26일

[논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video Models

블록-인과(block-causal) 비디오 생성 모델, 특히 1.3B 모델 이 16 FPS , 14B 모델 이 4.5 FPS 에 불과한 느린 추론 속도로 인해 품질-속도 간의 심각한 절충(trade-off) 문제에 직면합니다.

#Review #Video Generation #Diffusion Models #Block-Causal Models #Inference Acceleration #Multi-GPU Parallelism #Training-Free #KV Caching #Interactive AI

2025년 11월 26일

[논문리뷰] PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

기존 비디오 생성 모델들이 시각적 품질은 뛰어나지만, 명시적인 물리적 제어 가능성과 현실성이 부족하다는 문제를 해결하는 것을 목표로 합니다. 단일 이미지로부터 객체의 물리적 특성을 추론하고, 이를 기반으로 물리적으로 정확하며 역동적인 비디오를 생성하는 새로운 프레임워크를 제안합니다.

#Review #Video Generation #Physics Simulation #Controllable AI #Part-Aware #Semantic Grounding #Material Properties #Image-to-Video #Diffusion Models

2025년 11월 25일

[논문리뷰] GigaWorld-0: World Models as Data Engine to Empower Embodied AI

본 논문은 GigaWorld-0 라는 통합 월드 모델 프레임워크를 개발하여 Embodied AI 를 위한 확장 가능하고 데이터 효율적인 데이터 엔진 으로 활용하는 것을 목표로 합니다.

#Review #World Models #Embodied AI #Data Generation #Video Generation #3D Scene Reconstruction #Robotics #Vision-Language-Action

2025년 11월 25일

[논문리뷰] Plan-X: Instruct Video Generation via Semantic Planning

기존 비디오 확산 모델(DiT)이 복잡한 사용자 지시 및 장기 계획에서 겪는 높은 수준의 의미론적 추론 및 계획 능력 부족 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Semantic Planning #Multimodal LLM #Diffusion Transformer #Spatio-temporal Guidance #Visual Hallucination #Prompt Alignment #Instruction Following

2025년 11월 24일

[논문리뷰] In-Video Instructions: Visual Signals as Generative Control

본 논문은 대규모 비디오 생성 모델의 제어 가능성을 탐구하며, 기존 텍스트 프롬프트의 한계인 전역적이고 추상적인 제어를 극복하고자 합니다.

#Review #Video Generation #Controllable AI #Visual Instructions #Image-to-Video #Spatial Control #Zero-shot Learning #Generative Models

2025년 11월 24일

[논문리뷰] HunyuanVideo 1.5 Technical Report

경량화되면서도 강력한 오픈소스 비디오 생성 모델 Hunyuan Video 1.5 를 개발하여, 8.3억 파라미터로 최첨단 시각 품질과 움직임 일관성을 달성하고, 소비자용 GPU에서 효율적인 추론을 가능하게 하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformer #Sparse Attention #Super-Resolution #Open-Source #Multimodal Understanding #Training Optimization #Efficient Inference

2025년 11월 24일

[논문리뷰] Planning with Sketch-Guided Verification for Physics-Aware Video Generation

이 논문은 비디오 생성 모델이 복잡한 동작 명령을 따르고 물리적으로 사실적이며 시간적으로 일관된 시퀀스를 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Motion Planning #Physics-Aware AI #Multimodal Verification #Diffusion Models #Test-Time Optimization #Sketch-Guided

2025년 11월 23일

[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

이 연구는 기존의 텍스트 기반 다음 이벤트 예측(NEP)의 한계를 넘어, 비디오를 답변으로 제공 하는 새로운 패러다임인 Video-Next-Event Prediction (VNEP) 을 개척합니다.

#Review #Video Generation #Next Event Prediction #Reinforcement Learning #Vision-Language Model #Video Diffusion Model #Joint Optimization #Multimodal AI #Procedural Learning

2025년 11월 20일

[논문리뷰] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

본 논문은 최신 생성 비디오 모델의 추론 능력을 체계적이고 신뢰할 수 있게 평가하기 위한 벤치마크 스위트인 V-ReasonBench 를 제안합니다.

#Review #Video Generation #Reasoning Benchmark #Chain-of-Frame #Evaluation #Multimodal AI #Physical Dynamics #Spatial Cognition #Pattern Inference

2025년 11월 20일

[논문리뷰] First Frame Is the Place to Go for Video Content Customization

비디오 생성 모델에서 여러 참조 이미지를 활용한 유연한 콘텐츠 맞춤화 시, 아키텍처 변경 이나 대규모 파인튜닝 없이도 일반화된 성능을 유지 하는 방법을 모색하는 것이 주된 목표입니다. 기존 모델들이 가진 '첫 프레임'의 잠재적인 역할을 재해석하여, 이를 시각적 엔티티를 저장하는 개념적 메모리 버퍼 로 활용하고자 합니다.

#Review #Video Generation #Content Customization #Few-shot Learning #LoRA #Vision-Language Models (VLMs)#First Frame Conditioning #Reference-based Generation

2025년 11월 20일

[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

본 논문은 비디오 모델의 추론 능력, 특히 비디오 생성 을 통한 추론 능력을 체계적으로 평가하기 위한 포괄적인 벤치마크의 부재를 해결합니다.

#Review #Video Models #Spatial Reasoning #Maze Solving #Video Generation #Benchmark #Supervised Fine-tuning #Test-Time Scaling #Multimodal Reasoning

2025년 11월 19일

[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

본 논문은 고품질의 일관되고 제어 가능한 이미지 및 비디오 생성을 위한 AI/ML 분야의 핵심 과제를 해결하고자 합니다. 특히, 최신 이미지 및 10초 비디오 합성을 위한 Kandinsky 5.0 이라는 최첨단 파운데이션 모델 제품군을 개발하여 최고 수준의 품질과 운영 효율성을 달성하는 것을 목표로 합니다.

#Review #Image Generation #Video Generation #Diffusion Models #Flow Matching #Diffusion Transformer #NABLA #RLHF #Supervised Fine-tuning

2025년 11월 19일

[논문리뷰] Simulating the Visual World with Artificial Intelligence: A Roadmap

본 논문은 비디오 생성 모델이 포괄적인 물리적 세계 모델(Physical World Model) 로 진화하는 과정을 체계적으로 조망하고 로드맵을 제시하는 것을 목표로 합니다.

#Review #World Models #Video Generation #AI Simulation #Generative AI #Physical Plausibility #Interactive AI #Planning #Roadmap

2025년 11월 16일

[논문리뷰] LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

본 논문은 비디오 생성 Diffusion Transformers (DiT)의 Quadratic attention complexity 로 인한 과도한 지연 시간 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Sparse Attention #Temporal Coherence #Video Generation #Computational Efficiency #FlashAttention #CUDA Kernels

2025년 11월 16일

[논문리뷰] EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

기존 비디오 생성 시스템이 감성적 차원을 소홀히 다루고 특히 스타일화되거나 비현실적인 콘텐츠에서 감정 이해와 생성 간의 격차가 크다는 문제를 해결하고자 합니다.

#Review #Multimodal Dataset #Emotion Recognition #Video Generation #Affective Computing #Stylized Media #Diffusion Models #Video Understanding #Text-to-Video

2025년 11월 16일

[논문리뷰] UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

본 논문은 전문화된 비디오 AI 모델과 실제 비디오 워크플로우 간의 격차를 해소하여 차세대 비디오 일반 인공지능을 구현하는 것을 목표로 합니다.

#Review #Video Agents #Multi-modal AI #Plan-Act Architecture #Tool-Use #Long-horizon Reasoning #Open-source #Video Generation #Video Understanding

2025년 11월 13일

[논문리뷰] Robot Learning from a Physical World Model

본 논문은 비디오 생성 모델에서 생성된 픽셀 동작을 물리적으로 실현 가능한 로봇 동작으로 변환하는 과정에서 발생하는 문제를 해결하고자 합니다.

#Review #Robot Learning #Video Generation #Physical World Model #Reinforcement Learning #Zero-shot Manipulation #Object-Centric Learning #Sim-to-Real

2025년 11월 10일

[논문리뷰] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

기존의 'Thinking with Text' 및 'Thinking with Images' 패러다임이 가진 정적 이미지의 한계와 모달리티 분리 문제를 극복하고자 합니다.

#Review #Video Generation #Multimodal Reasoning #Temporal Understanding #Spatial Reasoning #Foundation Models #AI Benchmarking #In-Context Learning #Self-Consistency

2025년 11월 9일

[논문리뷰] Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

본 논문은 비디오 생성 분야에서 Direct Preference Optimization (DPO) 의 효율성을 유지하면서, 기존 방법론이 가진 비싼 데이터 구축, 불안정한 훈련, 과도한 메모리 소비라는 고유한 비디오 태스크의 난제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Direct Preference Optimization #SFT Regularization #GT-Pair #Memory Optimization #Diffusion Models #I2V #T2V

2025년 11월 9일

[논문리뷰] How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

본 연구는 고위험 수술 도메인에서 심층적이고 전문화된 인과 지식이 필요한 상황에서, 최첨단 비디오 생성 모델(잠재적 월드 모델 )이 실제 세계를 시뮬레이션하는 능력을 평가하는 것을 목표로 합니다.

#Review #Video Generation #World Models #Surgical AI #Zero-shot Prediction #Expert Evaluation #Plausibility Gap #Medical Simulation

2025년 11월 9일

[논문리뷰] Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals

본 논문은 Distribution Matching Distillation (DMD) 을 통해 스코어 기반 생성 모델을 효율적인 few-step 생성기로 증류하는 과정에서 발생하는 한계점들을 해결하고자 합니다.

#Review #Distribution Matching Distillation #Few-step Diffusion #Score Matching #Mixture-of-Experts #Generative Models #Image Generation #Video Generation #Model Distillation

2025년 11월 9일

[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

본 논문은 Diffusion Transformer (DiT) 모델, 특히 비디오 생성에서 긴 시퀀스 길이로 인한 어텐션의 2차 시간 복잡도 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Sparse Attention #Linear Attention #Model Acceleration #Video Generation #Attention Mechanisms #Fine-tuning

2025년 9월 30일

[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

본 논문은 기존 비디오 생성 모델의 높은 연산 복잡성(O(N^2))과 느린 추론 속도로 인한 비효율성을 해결하여, 고해상도(720x1280), 고품질, 장시간(분 단위) 비디오를 빠르고 효율적으로 생성 하는 소형 확산 모델인 SANA-Video를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Model #Linear Attention #Transformer #Long Video #Efficient Inference #Constant Memory #Low-Cost Training #RTX Deployment

2025년 9월 30일

[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual Interaction

컴퓨터 비전, 음성 및 텍스트를 아우르는 다중 모달 인터랙티브 인간 에이전트 시스템에서 기존의 모듈형 파이프라인 방식이 야기하는 컨텍스트 불일치, 지연 및 오류 누적 문제를 해결하고자 합니다.

#Review #Digital Human #Multimodal AI #Real-time Streaming #Video Generation #Diffusion Models #Transformer Architecture #Audiovisual Synchronization #World Modeling

2025년 9월 29일

[논문리뷰] UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

기존 Large Vision Models (LVMs)이 태스크 및 모달리티별 사전 훈련 데이터에 대한 높은 의존성으로 인해 확장성이 제한되는 문제를 해결하고자 합니다.

#Review #Unified Vision Modeling #Video Generation #Diffusion Transformer #Supervised Fine-tuning #Cross-modal #Cross-source Tasks #Visual Sentences #LoRA

2025년 9월 29일

[논문리뷰] PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

기존 비디오 생성 모델들이 겪는 물리적 현실성 부족과 3D 제어의 한계를 극복하는 것을 목표로 합니다. 논문은 물리적 매개변수와 외부 힘을 명시적으로 제어하여 물리 기반(physics-grounded) 이미지-투-비디오 생성 을 가능하게 하는 PhysCtrl 프레임워크를 제안합니다.

#Review #Video Generation #Physics-Grounded #Controllable Generation #Diffusion Models #Point Cloud Trajectories #Material Simulation #Generative Physics

2025년 9월 25일

[논문리뷰] EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

이 논문은 이미지 및 비디오 생성과 편집 작업이 아키텍처적 한계와 데이터 부족으로 인해 파편화되어 있다는 문제를 해결하고자 합니다. 단일 모델 내에서 이미지 및 비디오 편집과 생성을 통합하는 EditVerse 프레임워크를 제안하여, 인컨텍스트 학습 을 통해 다양한 모달리티를 유연하게 처리하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #In-Context Learning #Image and Video Editing #Video Generation #Full Self-Attention #Rotary Positional Embedding #Cross-Modal Knowledge Transfer

2025년 9월 25일

[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

본 논문은 기존 비디오 삽입 모델의 복잡한 제어 신호(예: 마스크, 포인트) 의존성, 주제 일관성 부족, 그리고 데이터 희소성 문제를 해결하여 Mask-free Video Insertion (MVI) 의 실용성을 높이는 것을 목표로 합니다.

#Review #Video Insertion #Diffusion Models #Diffusion Transformers #Mask-Free #Data Augmentation #Progressive Training #Preference Optimization #Video Generation

2025년 9월 23일

[논문리뷰] OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

논문은 4D 세계 모델링 을 위한 고품질 데이터 부족 문제를 해결하는 것을 목표로 합니다.

#Review #4D World Modeling #Multi-Modal Dataset #Multi-Domain Data #Geometric Foundation Models #Video Generation #Spatio-Temporal Data #Dataset Benchmark

2025년 9월 16일

[논문리뷰] 3D and 4D World Modeling: A Survey

본 설문조사는 3D 및 4D 세계 모델링 및 생성을 위한 최초의 포괄적인 리뷰를 제공하여, 2D 데이터 중심 연구에서 간과되었던 RGB-D, Occupancy Grids, LiDAR Point Clouds 와 같은 네이티브 3D 및 4D 표현의 중요성을 강조합니다.

#Review #3D World Modeling #4D World Modeling #Generative Models #Predictive Models #LiDAR #Occupancy Grids #Video Generation #Autonomous Driving #Robotics

2025년 9월 11일

[논문리뷰] CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

기존 확산 모델이 낮은 해상도 데이터로 훈련되어 고해상도 시각 콘텐츠 생성 시 반복적인 패턴이나 흐릿함, 품질 저하 문제를 겪는 한계를 해결합니다.

#Review #Diffusion Models #High-Resolution Generation #Image Generation #Video Generation #UNet Architecture #DiT Architecture #Scale Fusion #LoRA Fine-tuning

2025년 8월 27일

[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation

본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.

#Review #Video Generation #Foundation Model #Diffusion Model #Transformer #Text-to-Video #Image-to-Video #Super-Resolution #Data Curation

2025년 8월 22일

[논문리뷰] Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

이 논문은 비디오 생성에서 사용자가 지정한 정체성을 고품질로 일관되게 유지하면서도, 기존 방법론의 과도한 훈련 파라미터 및 다른 AI 생성 모델과의 호환성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 경량의 플러그-앤-플레이 프레임워크를 통해 실용적인 정체성 제어 솔루션을 제시하고자 합니다.

#Review #Video Generation #Identity Preservation #Plug-and-Play #Diffusion Models #Self-Attention #Lightweight AI #Conditional Image Branch

2025년 8월 14일

[논문리뷰] Cut2Next: Generating Next Shot via In-Context Tuning

본 논문은 기존 비디오 생성 모델이 간과했던 영화적 내러티브 흐름과 편집 패턴(예: Shot/Reverse Shot , Cut-Out , Cutaway )을 준수하면서, 선행 샷에 영화적으로 일관성 있는 다음 샷을 생성 하는 새로운 태스크인 Next Shot Generation (NSG) 을 제안합니다.

#Review #Next Shot Generation #In-Context Tuning #Diffusion Transformer #Cinematic Continuity #Hierarchical Prompting #Video Generation #Shot Editing

2025년 8월 13일

[논문리뷰] Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

본 논문은 기존 비디오 생성 모델들이 개별 효과에 특화된 LoRA 훈련으로 인해 복합 시각 효과(multi-VFX)를 동시적이고 공간적으로 제어하는 데 한계가 있다는 문제를 해결합니다.

#Review #Visual Effects #Video Generation #LoRA #Mixture of Experts #Spatial Control #Diffusion Models #Multi-VFX

2025년 8월 12일

[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

본 논문은 로봇 조작을 위한 통합된 세계 파운데이션 플랫폼 (Genie Envisioner) 을 제시하여, 정책 학습, 평가 및 시뮬레이션을 단일 비디오-생성 프레임워크 내에서 통합하는 것을 목표로 합니다. 이는 기존 로봇 개발 과정의 단편적인 단계를 극복하고 확장 가능하며 범용적인 지능형 로봇 시스템 구축을 지향합니다.

#Review #Robotic Manipulation #World Model #Video Generation #Diffusion Model #Embodied AI #Foundation Model #Robotics Simulation #Policy Learning

2025년 8월 8일

[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

본 논문은 3D 인간 모션 생성(MoGen) 모델이 기존 벤치마크에서는 뛰어난 성능을 보이나, 다양하고 새로운 명령에 대한 일반화 능력 이 현저히 부족하다는 근본적인 문제점을 해결하고자 합니다.

#Review #Motion Generation #Generalization #Diffusion Models #Transformer #Large-scale Dataset #Benchmark #Multimodal Learning #Video Generation

2025년 10월 31일

[논문리뷰] VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

기존 시각 효과(VFX) 생성 모델들이 겪는 자원 집약적인 '효과당 LoRA' 패러다임 과 미학습 효과에 대한 낮은 일반화 능력 이라는 근본적인 한계를 해결하고자 합니다.

#Review #VFX Generation #In-Context Learning #Diffusion Models #Video Generation #Generalization #Attention Mask #One-Shot Adaptation

2025년 10월 30일

[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video Generation

본 논문은 연속 공간(continuous-space) 비디오 생성 모델과 비교하여 뒤처져 있던 이산 공간(discrete-space) 비디오 생성 모델의 성능 격차를 해소하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Video Generation #Metric Path #Long Video Generation #Asynchronous Scheduling #Text-to-Video #Multimodal Generation

2025년 10월 29일

[논문리뷰] LongCat-Video Technical Report

본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.

#Review #Video Generation #Diffusion Transformer #RLHF #Sparse Attention #Long Video Generation #Coarse-to-Fine Generation #Multi-task Learning #World Models

2025년 10월 28일

[논문리뷰] Video-As-Prompt: Unified Semantic Control for Video Generation

이 논문은 비디오 생성 분야에서 통합적이고 일반화 가능한 의미론적 제어라는 중요한 과제를 해결하고자 합니다. 기존 방법론들이 부적절한 픽셀 단위 사전 정보를 강요하여 아티팩트를 생성하거나, 특정 조건에 대한 파인튜닝이나 태스크별 아키텍처에 의존하여 일반화가 어렵다는 문제를 극복하는 것을 목표로 합니다.

#Review #Video Generation #Semantic Control #Diffusion Transformers #In-Context Learning #Mixture-of-Transformers #Video-As-Prompt #Controllable Generation #Large-scale Dataset

2025년 10월 27일

[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical Attention

기존 Diffusion Transformer 기반 비디오 생성 모델들이 출력 해상도(예: <720P)에 따라 attention 메커니즘의 제곱 복잡도 로 인해 발생하는 높은 연산 비용 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #High-Resolution #Diffusion Transformer #Hierarchical Attention #Global-Local Attention #Computational Efficiency #4K Synthesis

2025년 10월 22일

[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

본 논문은 대규모 비디오 생성 모델 의 훈련에서 발생하는 교차-모달 텍스트-비디오 정렬, 긴 시퀀스, 복잡한 시공간적 종속성 문제를 해결하기 위해 고효율 훈련 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformer #Large-scale Training #Megatron-Core #Video VAE #E-commerce AI #High-efficiency Pipeline #Preference Optimization

2025년 10월 22일

[논문리뷰] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

본 논문은 기존 텍스트-투-3D(Text-to-3D) 모델의 느린 최적화 및 오류 축적 문제를 해결하기 위해, 강력한 텍스트-투-비디오(text-to-video) 생성 모델 과 3D 재구성 네트워크 를 결합하는 새로운 프레임워크 VIST3A 를 제안합니다.

#Review #Text-to-3D #Model Stitching #Multi-view Reconstruction #Video Generation #Latent Diffusion Models #Gaussian Splats #Pointmaps #Reward Finetuning

2025년 10월 17일

[논문리뷰] RealDPO: Real or Not Real, that is the Preference

본 연구는 기존 비디오 생성 모델들이 복잡한 동작, 특히 사람 중심의 일상 활동에서 자연스럽고 부드러우며 맥락적으로 일관된 움직임을 생성하는 데 겪는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Direct Preference Optimization #Preference Learning #Real Data #Human Motion Synthesis #RealDPO #RealAction-5K

2025년 10월 17일

[논문리뷰] ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

본 연구는 기존 비디오 생성 모델들이 상상적인 시나리오 나 장거리 의미론적 관계 를 포함하는 프롬프트에서 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Video Generation #Test-Time Search #Diffusion Models #Semantic Dependency #Adaptive Reward #Evaluation Benchmark #Prompt-Guided

2025년 10월 17일

[논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

본 논문은 최신 비디오 생성 모델들이 시각적으로 사실적인 비디오를 생성하지만 물리 법칙을 준수하지 못하는 문제를 해결하는 것을 목표로 합니다. 물리적 지식을 비디오 생성 모델에 통합하여 물리적으로 그럴듯한 비디오 를 생성하고, 모델을 단순한 콘텐츠 생성기에서 '월드 모델' 로 발전시키는 것을 궁극적인 목적으로 합니다.

#Review #Video Generation #Physical Plausibility #Reinforcement Learning #Direct Preference Optimization #Physical Representation #Diffusion Models #World Models #Image-to-Video

2025년 10월 16일

[논문리뷰] CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

자율 주행을 위한 포괄적인 세계 모델을 구축하기 위해, 다양한 제어 입력 하에 장기간의 다중 시점 비디오를 생성하고 동시에 4D 장면 재구성 기능을 제공하는 것을 목표로 합니다. 특히, 기존 비디오 생성 모델들이 명시적인 3D 정보 를 다루지 못해 자율 주행 시나리오에 적용하기 어려운 한계를 극복하고자 합니다.

#Review #Autonomous Driving #Video Generation #Diffusion Models #Spatial-Temporal Reconstruction #3D Gaussian Splatting #Variational Autoencoder #World Modeling #Multi-View Video

2025년 10월 16일

[논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

본 논문은 사용자가 지정한 임의의 공간 및 시간 위치에 패치를 배치하여 비디오를 생성하는 '임의의 시공간 비디오 완성(arbitrary spatio-temporal video completion)' 이라는 새로운 태스크를 제안합니다.

#Review #Video Completion #Spatio-Temporal Control #In-Context Conditioning #Video Diffusion Models #RoPE Interpolation #VAE #Unified Framework #Video Generation

2025년 10월 10일

[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos

기존의 통합 멀티모달 모델들이 이미지 도메인에 주로 한정되어 있고, 비디오 관련 작업은 태스크별 전문 모델에 의존하는 한계를 극복하고자 합니다. 본 연구는 비디오에 대한 통합적인 이해, 생성, 편집 을 단일 프레임워크 내에서 수행할 수 있는 다재다능한 모델을 개발하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Video Generation #Video Editing #MLLM #Diffusion Transformer #In-Context Learning #Zero-shot Generalization #Multimodal AI

2025년 10월 10일

[논문리뷰] WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

로봇 조작을 위한 VLA(Vision-Language-Action) 모델 은 미세한 손-객체 상호작용을 포착하는 손목 시점(wrist-view) 관찰에 크게 의존하지만, 대규모 데이터셋에서는 이러한 손목 시점 데이터가 부족합니다.

#Review #4D World Models #Robotic Manipulation #Video Generation #Multi-view Synthesis #Visual-Language-Action (VLA)#Geometric Consistency #Diffusion Models #Wrist-View

2025년 10월 9일

[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video Generation

본 논문은 비디오 Diffusion Transformers (DiTs)가 다중 인스턴스 또는 주체-객체 상호작용을 어떻게 내부적으로 표현하는지 분석하고, 상호작용 인지 비디오 생성 능력을 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformers #Human-Object Interaction #Attention Alignment #Mask Tracking #Semantic Grounding #Semantic Propagation #Text-to-Video

2025년 10월 9일

[논문리뷰] LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation

본 논문은 확산 모델 기반 비디오 생성 과정에서 발생하는 높은 GPU 메모리 사용량 과 긴 추론 시간 문제를 해결하고자 합니다. 특히 기존 캐싱 기반 가속화 방법이 야기하는 메모리 급증 현상 을 극복하고, 모델 훈련 없이 메모리 효율적인 가속화를 달성하여 실제 환경 배포의 제약을 완화하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #Memory Efficiency #Inference Acceleration #Training-Free #Cache Mechanism #GPU Optimization

2025년 10월 8일

[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

기존 비디오 생성 모델들이 복잡한 다이내믹스와 인과적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 시각적 상태 전이와 시간 경과에 따른 결과의 논리적 일관성 부족을 개선하기 위해 대규모 멀티모달 모델의 추론 능력을 비디오 생성에 통합하고자 합니다.

#Review #Video Generation #Chain-of-Thought #Multimodal Models #Reasoning #Inference-Time Tuning #Sparse Supervision #Diffusion Models #Keyframe Generation

2025년 10월 7일

[논문리뷰] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

본 논문은 기존 이미지 편집 모델의 물리적 일관성 부족 문제를 해결하고, 특히 월드 시뮬레이션 관련 작업에서 편집된 객체가 장면의 맥락과 물리적으로 일관되게 유지되도록 하는 것을 목표로 합니다.

#Review #Image Editing #Video Generation #Temporal Reasoning #World Simulation #Physical Consistency #Diffusion Models #Generative Models

2025년 10월 7일

[논문리뷰] Character Mixing for Video Generation

이 논문은 비디오 생성에서 비공존 캐릭터 간의 자연스러운 상호작용 을 가능하게 하는 것을 목표로 합니다.

#Review #Video Generation #Character Mixing #Style Preservation #Multi-character Interaction #Text-to-Video #Cross-Domain Synthesis #Identity Preservation

2025년 10월 7일

[논문리뷰] How Confident are Video Models? Empowering Video Models to Express their Uncertainty

비디오 생성 모델이 텍스트 프롬프트에 기반하여 부정확하거나 사실과 다른(hallucinate) 비디오를 생성할 때, 그 예측에 대한 불확실성을 표현하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Uncertainty Quantification #Aleatoric Uncertainty #Epistemic Uncertainty #Model Calibration #Text-to-Video #Generative AI #VMF Distribution

2025년 10월 6일

[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

기존 비디오 생성 모델들이 복잡한 공간 관계, 시간적 논리, 다중 주체 상호작용을 포함하는 프롬프트를 처리할 때 주체 일관성을 유지하는 데 어려움을 겪는 문제를 해결하는 것입니다.

#Review #Video Generation #Subject Consistency #Cross-Modal Integration #Diffusion Models #Multimodal LLM #Diffusion Transformer #Text-to-Video

2025년 10월 2일

[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

본 논문은 기존 비디오 생성 모델 및 벤치마크가 전문적인 비디오 생성의 복잡성과 요구사항 을 충분히 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Video Generation #Evaluation Framework #Cinematic Control #Taxonomy #Human Annotation #Vision-Language Models #Text-to-Video

2025년 10월 1일

[논문리뷰] DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder

본 논문은 기존 비디오 확산 모델의 높은 훈련 및 추론 비용 문제를 해결하여, 고해상도 및 장시간 비디오 생성의 효율성을 대폭 향상시키는 것을 목표로 합니다. 특히, 사전 훈련된 모델의 품질을 유지하면서 깊은 압축 잠재 공간 으로 효율적으로 전환하는 프레임워크를 개발하는 데 중점을 둡니다.

#Review #Video Generation #Diffusion Models #Video Autoencoder #Deep Compression #Model Acceleration #Fine-tuning #Latent Space #Temporal Modeling

2025년 10월 1일