[논문리뷰] VOID: Video Object and Interaction Deletion본 연구는 CogVideoX 확산 모델을 기반으로, 물리적 인과 관계를 반영하는 카운터팩추얼 생성 모델을 구축하였습니다. 먼저 Kubric과 HUMOTO를 통해 객체 제거 전후의 물리적 역학 변화를 학습하고, VLM을 활용해 영상 내 영향받는 영역을 실시간으로 추론하여 Quadmask를 생성함으로써 모델의 생성 범위를 명확히 제한합니다.#Review#Video Object Removal#Counterfactual Reasoning#Video Diffusion Models#Interaction-Aware Masking#Vision-Language Models2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Generative World RendererarXiv에 게시된 'Generative World Renderer' 논문에 대한 자세한 리뷰입니다.#Review#Generative World Renderer#Inverse Rendering#G-buffer#Dataset Construction#Video Diffusion Models#VLM-based Evaluation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] EgoSim: Egocentric World Simulator for Embodied Interaction GenerationRan Yi이 arXiv에 게시한 'EgoSim: Egocentric World Simulator for Embodied Interaction Generation' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric World Simulator#Updatable 3D State#Embodied Interaction Generation#Video Diffusion Models#Scalable Data Pipeline2026년 4월 2일댓글 수 로딩 중
[논문리뷰] VGGRPO: Towards World-Consistent Video Generation with 4D Latent RewardarXiv에 게시된 'VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#Geometric Consistency#Reinforcement Learning#Latent Geometry Model#4D Reconstruction#Group Relative Policy Optimization2026년 3월 31일댓글 수 로딩 중
[논문리뷰] PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context InferencearXiv에 게시된 'PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Video Generation#KV Cache Management#Long Context Inference#Video Diffusion Models#Temporal Consistency#Spatiotemporal Compression#RoPE Adjustment#Dynamic Context Selection2026년 3월 29일댓글 수 로딩 중
[논문리뷰] RealMaster: Lifting Rendered Scenes into Photorealistic VideoOran Gafni이 arXiv에 게시한 'RealMaster: Lifting Rendered Scenes into Photorealistic Video' 논문에 대한 자세한 리뷰입니다.#Review#Sim-to-Real Translation#Photorealistic Video Generation#Video Diffusion Models#Structural Precision#Global Semantic Transformation#IC-LoRA#Temporal Consistency2026년 3월 24일댓글 수 로딩 중
[논문리뷰] MosaicMem: Hybrid Spatial Memory for Controllable Video World ModelsSongheng Yin이 arXiv에 게시한 'MosaicMem: Hybrid Spatial Memory for Controllable Video World Models' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Memory#World Models#Video Diffusion Models#Hybrid Memory#Controllable Video Generation#Long-horizon Consistency#Patch-and-Compose2026년 3월 18일댓글 수 로딩 중
[논문리뷰] DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement LearningarXiv에 게시된 'DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#Video Customization#Motion Control#Reinforcement Learning#Multi-Subject#Omni-Motion#Latent Identity#DiT2026년 3월 12일댓글 수 로딩 중
[논문리뷰] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priorsliuziwei7이 arXiv에 게시한 'ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors' 논문에 대한 자세한 리뷰입니다.#Review#Human-Object Interaction (HOI)#4D Reconstruction#Articulated Objects#Video Diffusion Models#Inverse Rendering#Zero-shot Learning#Motion Synthesis#3D Gaussians2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Solaris: Building a Multiplayer Video World Model in MinecraftTimothy Meehan이 arXiv에 게시한 'Solaris: Building a Multiplayer Video World Model in Minecraft' 논문에 대한 자세한 리뷰입니다.#Review#Multi-agent World Models#Video Diffusion Models#Minecraft#Self Forcing#Checkpointed Self Forcing#Multi-view Consistency#Data Collection#Embodied AI2026년 2월 25일댓글 수 로딩 중
[논문리뷰] World Action Models are Zero-shot PoliciesarXiv에 게시된 'World Action Models are Zero-shot Policies' 논문에 대한 자세한 리뷰입니다.#Review#World Action Models#Video Diffusion Models#Zero-shot Generalization#Cross-embodiment Transfer#Real-time Control#Robotics#Foundation Models#Flow Matching2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache QuantizationarXiv에 게시된 'Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization' 논문에 대한 자세한 리뷰입니다.#Review#Auto-Regressive Video Generation#KV-Cache Quantization#Memory Optimization#Long Video Generation#Video Diffusion Models#Semantic-Aware Smoothing#Progressive Residual Quantization2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion TransformerarXiv에 게시된 'SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#Sparse Attention#Linear Attention#Computational Efficiency#Transformer Tuning#Video Generation#LoRA#Gating Mechanism2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion ModelsXiao Yang이 arXiv에 게시한 'Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#Image-to-Video Generation#Diffusion Transformers (DiT)#Controllability#Semantic Alignment#Focal Guidance#Prompt Adherence2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Yume-1.5: A Text-Controlled Interactive World Generation ModelKaining Ying이 arXiv에 게시한 'Yume-1.5: A Text-Controlled Interactive World Generation Model' 논문에 대한 자세한 리뷰입니다.#Review#Interactive World Generation#Video Diffusion Models#Text-to-Video#Image-to-Video#Real-time Generation#Temporal-Spatial-Channel Modeling#Self-Forcing2025년 12월 29일댓글 수 로딩 중
[논문리뷰] WorldWarp: Propagating 3D Geometry with Asynchronous Video DiffusionarXiv에 게시된 'WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Novel View Synthesis#3D Geometry Propagation#Video Diffusion Models#Gaussian Splatting#Autoregressive Generation#Spatio-Temporal Noise#Geometric Consistency2025년 12월 22일댓글 수 로딩 중
[논문리뷰] EgoX: Egocentric Video Generation from a Single Exocentric VideoarXiv에 게시된 'EgoX: Egocentric Video Generation from a Single Exocentric Video' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric Video Generation#Exocentric-to-Egocentric#Video Diffusion Models#3D Scene Reconstruction#Geometry-Guided Attention#View Synthesis#Camera Pose Estimation#LoRA Adaptation2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching DistillationHao Ouyang이 arXiv에 게시한 'Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Streaming Video Generation#Video Diffusion Models#Distribution Matching Distillation#Reinforcement Learning#Autoregressive Models#Attention Sink#Real-time2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-RolloutPinar Yanardag이 arXiv에 게시한 'Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Video Generation#Rotary Positional Embedding#Infinite Video Generation#Action Control#Cinematic Transitions#Video Diffusion Models#KV Cache2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Loomis Painter: Reconstructing the Painting ProcessarXiv에 게시된 'Loomis Painter: Reconstructing the Painting Process' 논문에 대한 자세한 리뷰입니다.#Review#Painting Process Generation#Video Diffusion Models#Media Transfer#Reverse Painting#Dataset Curation#Perceptual Distance Profile#Artistic Workflow#Generative AI2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Rethinking Visual Intelligence: Insights from Video PretrainingAhmad Rahimi이 arXiv에 게시한 'Rethinking Visual Intelligence: Insights from Video Pretraining' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#Visual Intelligence#Pretraining#Foundation Models#Low-resource Learning#Inductive Biases#Visual Reasoning#Image-to-Image Tasks2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Point Prompting: Counterfactual Tracking with Video Diffusion ModelsAndrew Owens이 arXiv에 게시한 'Point Prompting: Counterfactual Tracking with Video Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#Point Tracking#Zero-Shot Learning#Counterfactual Modeling#Visual Prompting#SDEdit#Negative Prompting#Object Permanence2025년 10월 16일댓글 수 로딩 중
[논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context ConditioningQuande Liu이 arXiv에 게시한 'VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning' 논문에 대한 자세한 리뷰입니다.#Review#Video Completion#Spatio-Temporal Control#In-Context Conditioning#Video Diffusion Models#RoPE Interpolation#VAE#Unified Framework#Video Generation2025년 10월 10일댓글 수 로딩 중
[논문리뷰] SViM3D: Stable Video Material Diffusion for Single Image 3D GenerationarXiv에 게시된 'SViM3D: Stable Video Material Diffusion for Single Image 3D Generation' 논문에 대한 자세한 리뷰입니다.#Review#Single Image 3D Reconstruction#Material Prediction#Video Diffusion Models#Physically Based Rendering (PBR)#Inverse Rendering#Novel View Synthesis#Camera Control#Latent Diffusion2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-DistillationYifeng Jiang이 arXiv에 게시한 'Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Generative AI#3D Scene Reconstruction#Video Diffusion Models#Self-Distillation#3D Gaussian Splatting#Dynamic 4D Generation#Monocular Input2025년 9월 24일댓글 수 로딩 중
[논문리뷰] WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free GuidanceRuibo Li이 arXiv에 게시한 'WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#3D/4D Generation#Training-Free Guidance#Camera Trajectory Control#Novel View Synthesis#Geometric Consistency#Inference-Time Optimization2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Droplet3D: Commonsense Priors from Videos Facilitate 3D GenerationQi Jia이 arXiv에 게시한 'Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Generation#Video Diffusion Models#Spatial Consistency#Semantic Knowledge#Multi-view Synthesis#Large-scale Dataset#Image-to-3D#Text-to-3D2025년 9월 1일댓글 수 로딩 중
[논문리뷰] ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion ModelsBeiqi Chen이 arXiv에 게시한 'ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#3D Inpainting#Multi-view Consistency#Video Diffusion Models#3D Object Completion#Generative Models#LoRA#3D Gaussian Splatting2025년 8월 27일댓글 수 로딩 중
[논문리뷰] ToonComposer: Streamlining Cartoon Production with Generative Post-KeyframingXiaoyu Li이 arXiv에 게시한 'ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing' 논문에 대한 자세한 리뷰입니다.#Review#Cartoon Generation#Video Diffusion Models#DiT#Post-Keyframing#Low-Rank Adaptation#Sparse Control#Generative AI#Animation2025년 8월 15일댓글 수 로딩 중