[논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion DataarXiv에 게시된 'DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Synthetic Motion Data#Optical Flow#Camera Control2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular SignalingJibin Wang이 arXiv에 게시한 'Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling' 논문에 대한 자세한 리뷰입니다.#Review#Cellular Signaling#Video Generation#GPS Trajectory Reconstruction#Reinforcement Learning#Mobility Analytics#Sig2GPS2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Toward Physically Consistent Driving Video World Models under Challenging TrajectoriesLijun Zhou이 arXiv에 게시한 'Toward Physically Consistent Driving Video World Models under Challenging Trajectories' 논문에 대한 자세한 리뷰입니다.#Review#Driving World Models#Physical Consistency#Video Generation#Challenging Trajectories#Autonomous Driving#Heterogeneous Dataset2026년 3월 25일댓글 수 로딩 중
[논문리뷰] WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPGarXiv에 게시된 'WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG' 논문에 대한 자세한 리뷰입니다.#Review#World Modeling#Action-Conditioned Generation#Dataset#Generative ARPG#Explicit State Annotation#Video Generation#Long-Horizon Consistency2026년 3월 24일댓글 수 로딩 중
[논문리뷰] TAPESTRY: From Geometry to Appearance via Consistent Turntable VideosLongwen Zhang이 arXiv에 게시한 'TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#3D Texturing#Geometric Consistency#Turntable Video#Diffusion Models#Neural Rendering2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video ModelsJie Huang이 arXiv에 게시한 'Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Distilled Autoregressive Models#Reinforcement Learning (RL)#Human Preferences#Streaming Generation#Forward-Process RL#Reward Hacking#Temporal Consistency2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Coarse-Guided Visual Generation via Weighted h-Transform SamplingarXiv에 게시된 'Coarse-Guided Visual Generation via Weighted h-Transform Sampling' 논문에 대한 자세한 리뷰입니다.#Review#Guided Visual Generation#Diffusion Model#Doob's h-Transform#Coarse-guided Generation#Training-free#Image Restoration#Video Generation#Weighted Sampling2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Streaming Autoregressive Video Generation via Diagonal DistillationarXiv에 게시된 'Streaming Autoregressive Video Generation via Diagonal Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Autoregressive Models#Diffusion Models#Distillation#Real-time#Streaming#Temporal Coherence#Flow Matching2026년 3월 10일댓글 수 로딩 중
[논문리뷰] WildActor: Unconstrained Identity-Preserving Video GenerationFei Shen이 arXiv에 게시한 'WildActor: Unconstrained Identity-Preserving Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Identity Preservation#Human-Centric Video#Large-scale Dataset#Diffusion Models#Attention Mechanism#Viewpoint Consistency2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Physical Simulator In-the-Loop Video GenerationThabo Beeler이 arXiv에 게시한 'Physical Simulator In-the-Loop Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physical Simulation#Diffusion Models#Texture Consistency#Motion Controllability#Test-Time Optimization#4D Reconstruction2026년 3월 8일댓글 수 로딩 중
[논문리뷰] RealWonder: Real-Time Physical Action-Conditioned Video GenerationHong-Xing Yu이 arXiv에 게시한 'RealWonder: Real-Time Physical Action-Conditioned Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physics Simulation#Real-Time#Action-Conditioned#3D Scene Reconstruction#Diffusion Models#Optical Flow2026년 3월 5일댓글 수 로딩 중
[논문리뷰] DreamWorld: Unified World Modeling in Video GenerationShaofeng Zhang이 arXiv에 게시한 'DreamWorld: Unified World Modeling in Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#World Modeling#Diffusion Models#Multi-modal Integration#Temporal Consistency#Spatial Geometry#Semantic Consistency#Constraint Annealing2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Helios: Real Real-Time Long Video Generation ModelarXiv에 게시된 'Helios: Real Real-Time Long Video Generation Model' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Real-Time#Long Video#Diffusion Transformers#Anti-Drifting#Memory Optimization#Distillation#Autoregressive Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Kling-MotionControl Technical ReportarXiv에 게시된 'Kling-MotionControl Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Character Animation#Video Generation#Diffusion Transformers (DiT)#Motion Control#Identity Preservation#Cross-Identity Transfer#Inference Acceleration#Multi-Granular Motion2026년 3월 3일댓글 수 로딩 중
[논문리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric MemoriesarXiv에 게시된 'WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#3D Reconstruction#Camera Control#Diffusion Models#Geometric Memory#Multi-View Consistency#World Model2026년 3월 2일댓글 수 로딩 중
[논문리뷰] SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware CachingAlexandre Alahi이 arXiv에 게시한 'SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Inference Acceleration#Caching#Sensitivity Analysis#Dynamic Caching#Video Generation#Denoising2026년 3월 1일댓글 수 로딩 중
[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation ModelsYan Zhang이 arXiv에 게시한 'UniVBench: Towards Unified Evaluation for Video Foundation Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Foundation Models#Unified Evaluation#Multi-task Learning#Video Understanding#Video Generation#Video Editing#Video Reconstruction#Agentic Evaluation#Cinematic Dimensions2026년 2월 25일댓글 수 로딩 중
[논문리뷰] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion ModelsGeonho Cha이 arXiv에 게시한 'SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Model Acceleration#Feature Caching#Spectral Analysis#Generative AI#Image Generation#Video Generation#Latency Reduction2026년 2월 25일댓글 수 로딩 중
[논문리뷰] A Very Big Video Reasoning SuitearXiv에 게시된 'A Very Big Video Reasoning Suite' 논문에 대한 자세한 리뷰입니다.#Review#Video Reasoning#Large-scale Dataset#Benchmark#Cognitive Architecture#Scaling Studies#Video Generation#Generalization#Rule-based Evaluation2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera ControlShengqu Cai이 arXiv에 게시한 'Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Extended Reality (XR)#Diffusion Models#Human-Computer Interaction#Hand Pose Estimation#Camera Control#World Simulation#Interactive AI2026년 2월 22일댓글 수 로딩 중
[논문리뷰] Unified Latents (UL): How to train your latentsarXiv에 게시된 'Unified Latents (UL): How to train your latents' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Latent Representation Learning#VAE#Image Generation#Video Generation#Bitrate Control#Training Efficiency#Diffusion Prior#Diffusion Decoder2026년 2월 19일댓글 수 로딩 중
[논문리뷰] SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-TuningarXiv에 게시된 'SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning' 논문에 대한 자세한 리뷰입니다.#Review#Sparse Attention#Diffusion Models#Video Generation#Hybrid Masking#Distillation Fine-Tuning#Model Acceleration#Top-k#Top-p2026년 2월 19일댓글 수 로딩 중
[논문리뷰] SLA2: Sparse-Linear Attention with Learnable Routing and QATarXiv에 게시된 'SLA2: Sparse-Linear Attention with Learnable Routing and QAT' 논문에 대한 자세한 리뷰입니다.#Review#Sparse-Linear Attention#Diffusion Models#Video Generation#Learnable Routing#Quantization-Aware Training#Attention Acceleration#Model Optimization2026년 2월 18일댓글 수 로딩 중
[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World ModelsarXiv에 게시된 'WorldCompass: Reinforcement Learning for Long-Horizon World Models' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#World Models#Video Generation#Autoregressive Generation#Long-Horizon#Post-training#Diffusion Models#Reward Functions2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video ReasoningarXiv에 게시된 'Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Visual Reasoning#Zero-Shot Generalization#Test-Time Scaling#Visual Context#Sequential Planning#Continuous Manipulation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?Zicheng Zhang이 arXiv에 게시한 'RISE-Video: Can Video Generators Decode Implicit World Rules?' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Implicit Reasoning#Benchmark#Evaluation#Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long ContextarXiv에 게시된 'Context Forcing: Consistent Autoregressive Video Generation with Long Context' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Autoregressive Models#Long Context#Temporal Consistency#Diffusion Models#Context Forcing#Memory Management#Distribution Matching Distillation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context LearningarXiv에 게시된 'DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning' 논문에 대한 자세한 리뷰입니다.#Review#Character Animation#Image Animation#Spatiotemporal Learning#In-Context Learning#Diffusion Models#Motion Transfer#Generalization#Video Generation2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Advancing Open-source World ModelsarXiv에 게시된 'Advancing Open-source World Models' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Open-source AI#Video Generation#Real-time Simulation#Long-term Memory#Action-Conditioned Learning#Generative Models#Embodied AI2026년 1월 28일댓글 수 로딩 중
[논문리뷰] SkyReels-V3 Technique ReportarXiv에 게시된 'SkyReels-V3 Technique Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multimodal AI#Diffusion Models#Transformer Architecture#Reference-guided Generation#Video-to-Video#Audio-driven Animation#Temporal Consistency2026년 1월 26일댓글 수 로딩 중
[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion TransformerarXiv에 게시된 'SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#Sparse Attention#Linear Attention#Computational Efficiency#Transformer Tuning#Video Generation#LoRA#Gating Mechanism2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Rethinking Video Generation Model for the Embodied WorldarXiv에 게시된 'Rethinking Video Generation Model for the Embodied World' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Embodied AI#Robotics Benchmark#RBench#Robotics Dataset#RoVid-X#Physical Plausibility#Task Completion2026년 1월 21일댓글 수 로딩 중
[논문리뷰] OmniTransfer: All-in-one Framework for Spatio-temporal Video TransferarXiv에 게시된 'OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer' 논문에 대한 자세한 리뷰입니다.#Review#Video Transfer#Diffusion Models#Spatio-temporal Learning#Multimodal Alignment#Appearance Consistency#Temporal Control#Video Generation2026년 1월 20일댓글 수 로딩 중
[논문리뷰] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject AnimationHengshuang이 arXiv에 게시한 'CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation' 논문에 대한 자세한 리뷰입니다.#Review#Multi-subject Animation#Pose-driven Animation#Diffusion Models#Spatial Misalignment#Unbind-Rebind Paradigm#Character Animation#Video Generation2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Transition Matching Distillation for Fast Video GenerationarXiv에 게시된 'Transition Matching Distillation for Fast Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Model Distillation#Few-Step Sampling#Transition Matching#Flow Matching#DMD2#Efficiency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D RenderingAyush Tewari이 arXiv에 게시한 'Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#3D Reconstruction#3D Gaussian Splatting#Camera-Controlled#Sparse Keyframes#Real-time#Computational Efficiency2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Motion Attribution for Video GenerationarXiv에 게시된 'Motion Attribution for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Motion Attribution#Video Generation#Diffusion Models#Gradient-based Attribution#Temporal Dynamics#Motion Masking#Fine-tuning#Data Curation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-HeadarXiv에 게시된 'MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head' 논문에 대한 자세한 리뷰입니다.#Review#Linear Attention#Multi-Head Attention#Transformer#Global Context Collapse#Representational Diversity#Image Generation#NLP#Video Generation2026년 1월 12일댓글 수 로딩 중
[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous DrivingarXiv에 게시된 'DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving' 논문에 대한 자세한 리뷰입니다.#Review#Generative World Models#Autonomous Driving#Video Generation#Benchmark#Evaluation Metrics#Trajectory Prediction#Temporal Consistency#Data Diversity2026년 1월 12일댓글 수 로딩 중
[논문리뷰] VideoAR: Autoregressive Video Generation via Next-Frame & Scale PredictionYu Sun이 arXiv에 게시한 'VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Autoregressive Models#Next-Frame Prediction#Multi-scale Prediction#Temporal Consistency#Visual Autoregressive#Error Propagation2026년 1월 11일댓글 수 로딩 중
[논문리뷰] Goal Force: Teaching Video Models To Accomplish Physics-Conditioned GoalsArjan Chakravarthy이 arXiv에 게시한 'Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#World Models#Physics-Conditioned Goals#Causal Planning#Force Vectors#Zero-Shot Generalization#Diffusion Models#Robotics Planning2026년 1월 11일댓글 수 로딩 중
[논문리뷰] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric ControlYing Shan이 arXiv에 게시한 'VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control' 논문에 대한 자세한 리뷰입니다.#Review#Video World Model#4D Geometric Control#Gaussian Trajectories#Video Generation#Diffusion Models#Camera Control#Object Motion Control#Data Engine2026년 1월 8일댓글 수 로딩 중
[논문리뷰] RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot ManipulationMingda Jia이 arXiv에 게시한 'RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation' 논문에 대한 자세한 리뷰입니다.#Review#Robot Manipulation#Data Augmentation#Video Generation#Diffusion Models#Multi-View#Visual Identity Prompting#Action-Guided Segmentation#Visuomotor Policy2026년 1월 8일댓글 수 로딩 중
[논문리뷰] NeoVerse: Enhancing 4D World Model with in-the-wild Monocular VideosFeng Wang이 arXiv에 게시한 'NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos' 논문에 대한 자세한 리뷰입니다.#Review#4D World Model#Gaussian Splatting#Monocular Video#Novel View Synthesis#Video Generation#Feed-Forward Reconstruction#Degradation Simulation2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Pretraining Frame Preservation in Autoregressive Video Memory CompressionBeijia Lu이 arXiv에 게시한 'Pretraining Frame Preservation in Autoregressive Video Memory Compression' 논문에 대한 자세한 리뷰입니다.#Review#Video Compression#Autoregressive Models#Memory Compression#Frame Preservation#Pretraining#Video Generation#Diffusion Models#Long-Range Consistency2025년 12월 31일댓글 수 로딩 중
[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and GenerationarXiv에 게시된 'JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Sounding Video#Video Comprehension#Video Generation#Audio-Video Synchronization#Instruction Tuning#Diffusion Model#Encoder-Decoder2025년 12월 31일댓글 수 로딩 중
[논문리뷰] SurgWorld: Learning Surgical Robot Policies from Videos via World ModelingarXiv에 게시된 'SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Surgical Robotics#World Models#Video Generation#Imitation Learning#Inverse Dynamics Model#Synthetic Data#Vision-Language-Action Models#Data Scarcity2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SVBench: Evaluation of Video Generation Models on Social ReasoningXiaojie Xu이 arXiv에 게시한 'SVBench: Evaluation of Video Generation Models on Social Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Social Reasoning#Benchmark#Evaluation#Agent-based Pipeline#Vision-Language Models#Social Cognition2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Spatia: Video Generation with Updatable Spatial MemoryarXiv에 게시된 'Spatia: Video Generation with Updatable Spatial Memory' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Spatial Memory#3D Scene Point Cloud#Spatial Consistency#Camera Control#Interactive Editing#Diffusion Models#Visual SLAM2025년 12월 25일댓글 수 로딩 중
[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 TimesarXiv에 게시된 'TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Acceleration#Quantization#Attention#Step Distillation#Performance Optimization#RTX 50902025년 12월 24일댓글 수 로딩 중
[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video GenerationarXiv에 게시된 'DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#One-Shot Video#Diffusion Transformer (DiT)#Frame-Guided Generation#Auto-Regressive Generation#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)2025년 12월 24일댓글 수 로딩 중
[논문리뷰] SemanticGen: Video Generation in Semantic SpacearXiv에 게시된 'SemanticGen: Video Generation in Semantic Space' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Semantic Space#Diffusion Models#VAE Latents#Long Video Generation#Semantic Encoders#Generative AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control InterfaceLiliang Chen이 arXiv에 게시한 'Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface' 논문에 대한 자세한 리뷰입니다.#Review#Robotics#Demonstration Generation#3D Control Interface#Data Efficiency#Visuomotor Policy Learning#Spatial Generalization#Depth Map#Video Generation2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Infinite-Homography as Robust Conditioning for Camera-Controlled Video GenerationarXiv에 게시된 'Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Camera Control#Homography#Diffusion Models#Data Augmentation#Novel View Synthesis#Pose Fidelity2025년 12월 22일댓글 수 로딩 중
[논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and TextarXiv에 게시된 'The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Video Generation#Multimodal Control#Trajectory Guidance#Reference Images#Promptable Events#Cross-Attention#Diffusion Models2025년 12월 18일댓글 수 로딩 중
[논문리뷰] StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative PriorsarXiv에 게시된 'StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors' 논문에 대한 자세한 리뷰입니다.#Review#Monocular-to-Stereo Conversion#Video Generation#Diffusion Models#Feed-Forward Architecture#Domain Switcher#Cycle Consistency#Unified Dataset#Depth Ambiguity2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation ModelarXiv에 게시된 'Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Visual Generation#Diffusion Transformer#Multimodal AI#Speech Synchronization#Video Generation#Reinforcement Learning from Human Feedback#Inference Acceleration2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Kling-Omni Technical ReportarXiv에 게시된 'Kling-Omni Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multimodal Visual Language#Generative AI#Video Editing#Reasoning-enhanced Generation#Diffusion Transformer#Multi-modal World Simulators2025년 12월 18일댓글 수 로딩 중
[논문리뷰] FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent PredictionarXiv에 게시된 'FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction' 논문에 대한 자세한 리뷰입니다.#Review#Portrait Animation#Diffusion Models#Inference Acceleration#Identity Preservation#Video Generation#Latent Prediction#Sliding Window2025년 12월 18일댓글 수 로딩 중
[논문리뷰] V-RGBX: Video Editing with Accurate Controls over Intrinsic PropertiesarXiv에 게시된 'V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#Intrinsic Decomposition#Video Generation#Diffusion Models#Keyframe Editing#Inverse Rendering#Temporal Consistency#Physically Based Rendering2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Structure From Tracking: Distilling Structure-Preserving Motion for Video GenerationQifeng Chen이 arXiv에 게시한 'Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Motion Tracking#Diffusion Models#Structure Preservation#SAM2#Feature Distillation#Local Gram Flow2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvasarXiv에 게시된 'Exploring MLLM-Diffusion Information Transfer with MetaCanvas' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#Diffusion Models#Image Generation#Video Generation#Image Editing#Video Editing#Latent Space Planning#Canvas Tokens#Information Transfer2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Evaluating Gemini Robotics Policies in a Veo World SimulatorarXiv에 게시된 'Evaluating Gemini Robotics Policies in a Veo World Simulator' 논문에 대한 자세한 리뷰입니다.#Review#Robotics#Policy Evaluation#World Model#Video Generation#Out-of-Distribution (OOD)#Safety#Gemini Robotics#Veo Simulator2025년 12월 11일댓글 수 로딩 중
[논문리뷰] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous DrivingarXiv에 게시된 'UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Driving#End-to-End Learning#Vision-Language Models#World Model#Chain-of-Thought#Video Generation#Trajectory Planning#Multimodal Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] StereoWorld: Geometry-Aware Monocular-to-Stereo Video GenerationGuixun Luo이 arXiv에 게시한 'StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Monocular-to-Stereo#Video Generation#Diffusion Models#Geometry-Aware#XR#IPD-aligned Dataset#Novel View Synthesis2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Wan-Move: Motion-controllable Video Generation via Latent Trajectory GuidancearXiv에 게시된 'Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Motion Control#Latent Trajectory Guidance#Image-to-Video#Diffusion Models#Neural Networks#MoveBench2025년 12월 9일댓글 수 로딩 중
[논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical AlignmentarXiv에 게시된 'MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Robotic Manipulation#Hierarchical Framework#Reinforcement Learning#Diffusion Models#World Models#Cognitive Science#Physical Alignment2025년 12월 9일댓글 수 로딩 중
[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video GenerationarXiv에 게시된 'UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multi-modal Learning#Multi-task Learning#Zero-shot Generalization#Diffusion Models#World Models#Video Understanding2025년 12월 8일댓글 수 로딩 중
[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video GenerationTaojun Ding이 arXiv에 게시한 'ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Camera Control#Novel Trajectory#3D Gaussian Splatting (3DGS)#LiDAR-Free#Diffusion Models#Autonomous Driving#Scene Synthesis2025년 12월 8일댓글 수 로딩 중
[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video EditingarXiv에 게시된 'EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric Video Editing#Real-Time Streaming#Augmented Reality#Video Generation#Dataset#Benchmark#Diffusion Models#Distillation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose RepresentationsarXiv에 게시된 'SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations' 논문에 대한 자세한 리뷰입니다.#Review#Character Animation#3D Pose Representation#In-Context Learning#Diffusion Transformer#Studio-Grade Animation#Spatio-Temporal Reasoning#Video Generation2025년 12월 7일댓글 수 로딩 중
[논문리뷰] ProPhy: Progressive Physical Alignment for Dynamic World SimulationYuhao Cheng이 arXiv에 게시한 'ProPhy: Progressive Physical Alignment for Dynamic World Simulation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physics-aware#World Simulation#Progressive Alignment#Mixture-of-Experts#Vision-Language Models#Token-level Routing2025년 12월 7일댓글 수 로딩 중
[논문리뷰] TV2TV: A Unified Framework for Interleaved Language and Video GenerationarXiv에 게시된 'TV2TV: A Unified Framework for Interleaved Language and Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Language Modeling#Multimodal AI#Interleaved Generation#Flow Matching#Transformer#Controllability#World Models2025년 12월 4일댓글 수 로딩 중
[논문리뷰] BulletTime: Decoupled Control of Time and Camera Pose for Video GenerationJan Ackermann이 arXiv에 게시한 'BulletTime: Decoupled Control of Time and Camera Pose for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#4D Control#Camera Pose Control#Time Control#Positional Encoding#Adaptive Normalization#Synthetic Dataset2025년 12월 4일댓글 수 로딩 중
[논문리뷰] RELIC: Interactive Video World Model with Long-Horizon MemoryChongjian Ge이 arXiv에 게시한 'RELIC: Interactive Video World Model with Long-Horizon Memory' 논문에 대한 자세한 리뷰입니다.#Review#Interactive World Model#Video Generation#Long-Horizon Memory#Real-Time Streaming#Diffusion Models#Autoregressive Models#Spatial Consistency#Unreal Engine2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video GenerationYu Ning이 arXiv에 게시한 'Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Spatial Reasoning#Visuospatial Intelligence#Diffusion Models#Context-Guided Generation#Scene Navigation#Object Grounding#Out-of-Domain Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AIHumphrey Shi이 arXiv에 게시한 'PAI-Bench: A Comprehensive Benchmark For Physical AI' 논문에 대한 자세한 리뷰입니다.#Review#Physical AI#Benchmark#Video Generation#Conditional Video Generation#Video Understanding#Multimodal LLMs#Physical Plausibility#Embodied Reasoning2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video GenerationZixin Zhang이 arXiv에 게시한 'DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Video Generation#Camera Control#Depth Estimation#Dual-Branch Architecture#Geometric Awareness#Semantic Alignment#Multi-modal Fusion2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video GenerationarXiv에 게시된 'Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Audio-Video Multimodal#Joint Denoising#Diffusion Models#Transformer Architecture#World Models#Physical Commonsense#Multimodal Training2025년 12월 2일댓글 수 로딩 중
[논문리뷰] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video GenerationarXiv에 게시된 'BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Block Diffusion#Video Generation#Temporal Consistency#KV Cache#Semi-Autoregressive#Video Quality Metrics#Long Video Generation2025년 12월 2일댓글 수 로딩 중
[논문리뷰] What about gravity in video generation? Post-Training Newton's Laws with Verifiable RewardsarXiv에 게시된 'What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Newtonian Dynamics#Physics-aware AI#Post-Training#Verifiable Rewards#Optical Flow#Mass Estimation2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Seeing the Wind from a Falling LeafEmily Yue-Ting Jia이 arXiv에 게시한 'Seeing the Wind from a Falling Leaf' 논문에 대한 자세한 리뷰입니다.#Review#Inverse Graphics#Differentiable Physics#Force Estimation#Video Generation#Material Point Method#3D Gaussians#Spatio-temporal Modeling#Vision-Language Models2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Video Generation Models Are Good Latent Reward ModelsarXiv에 게시된 'Video Generation Models Are Good Latent Reward Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Reward Feedback Learning#Latent Space#Diffusion Models#Human Preferences#Motion Quality#Process-aware2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World SimulationJiahao He이 arXiv에 게시한 'Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation' 논문에 대한 자세한 리뷰입니다.#Review#World Simulation#Video Generation#Block Diffusion#Semi-Autoregressive#KV Cache Management#Inference Engine#Long Video Generation#Performance Optimization2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video ModelsarXiv에 게시된 'Block Cascading: Training Free Acceleration of Block-Causal Video Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Block-Causal Models#Inference Acceleration#Multi-GPU Parallelism#Training-Free#KV Caching#Interactive AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic GroundingHongzhi Zhang이 arXiv에 게시한 'PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physics Simulation#Controllable AI#Part-Aware#Semantic Grounding#Material Properties#Image-to-Video#Diffusion Models2025년 11월 25일댓글 수 로딩 중
[논문리뷰] GigaWorld-0: World Models as Data Engine to Empower Embodied AIChaojun Ni이 arXiv에 게시한 'GigaWorld-0: World Models as Data Engine to Empower Embodied AI' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Embodied AI#Data Generation#Video Generation#3D Scene Reconstruction#Robotics#Vision-Language-Action2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Plan-X: Instruct Video Generation via Semantic PlanningChenxu Zhang이 arXiv에 게시한 'Plan-X: Instruct Video Generation via Semantic Planning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Semantic Planning#Multimodal LLM#Diffusion Transformer#Spatio-temporal Guidance#Visual Hallucination#Prompt Alignment#Instruction Following2025년 11월 24일댓글 수 로딩 중
[논문리뷰] In-Video Instructions: Visual Signals as Generative ControlarXiv에 게시된 'In-Video Instructions: Visual Signals as Generative Control' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Controllable AI#Visual Instructions#Image-to-Video#Spatial Control#Zero-shot Learning#Generative Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] HunyuanVideo 1.5 Technical ReportFang Yang이 arXiv에 게시한 'HunyuanVideo 1.5 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformer#Sparse Attention#Super-Resolution#Open-Source#Multimodal Understanding#Training Optimization#Efficient Inference2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Planning with Sketch-Guided Verification for Physics-Aware Video GenerationShayegan Omidshafiei이 arXiv에 게시한 'Planning with Sketch-Guided Verification for Physics-Aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Motion Planning#Physics-Aware AI#Multimodal Verification#Diffusion Models#Test-Time Optimization#Sketch-Guided2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPOarXiv에 게시된 'Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Next Event Prediction#Reinforcement Learning#Vision-Language Model#Video Diffusion Model#Joint Optimization#Multimodal AI#Procedural Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation ModelsBaijiong Lin이 arXiv에 게시한 'V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Reasoning Benchmark#Chain-of-Frame#Evaluation#Multimodal AI#Physical Dynamics#Spatial Cognition#Pattern Inference2025년 11월 20일댓글 수 로딩 중
[논문리뷰] First Frame Is the Place to Go for Video Content CustomizationarXiv에 게시된 'First Frame Is the Place to Go for Video Content Customization' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Content Customization#Few-shot Learning#LoRA#Vision-Language Models (VLMs)#First Frame Conditioning#Reference-based Generation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving TasksYiran Peng이 arXiv에 게시한 'Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Video Models#Spatial Reasoning#Maze Solving#Video Generation#Benchmark#Supervised Fine-tuning#Test-Time Scaling#Multimodal Reasoning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video GenerationVladimir Arkhipkin이 arXiv에 게시한 'Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Video Generation#Diffusion Models#Flow Matching#Diffusion Transformer#NABLA#RLHF#Supervised Fine-tuning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Simulating the Visual World with Artificial Intelligence: A RoadmapPengfei Wan이 arXiv에 게시한 'Simulating the Visual World with Artificial Intelligence: A Roadmap' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Video Generation#AI Simulation#Generative AI#Physical Plausibility#Interactive AI#Planning#Roadmap2025년 11월 16일댓글 수 로딩 중
[논문리뷰] LiteAttention: A Temporal Sparse Attention for Diffusion TransformersarXiv에 게시된 'LiteAttention: A Temporal Sparse Attention for Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Sparse Attention#Temporal Coherence#Video Generation#Computational Efficiency#FlashAttention#CUDA Kernels2025년 11월 16일댓글 수 로딩 중
[논문리뷰] EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and GenerationZeyu Wang이 arXiv에 게시한 'EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Dataset#Emotion Recognition#Video Generation#Affective Computing#Stylized Media#Diffusion Models#Video Understanding#Text-to-Video2025년 11월 16일댓글 수 로딩 중
[논문리뷰] UniVA: Universal Video Agent towards Open-Source Next-Generation Video GeneralistarXiv에 게시된 'UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist' 논문에 대한 자세한 리뷰입니다.#Review#Video Agents#Multi-modal AI#Plan-Act Architecture#Tool-Use#Long-horizon Reasoning#Open-source#Video Generation#Video Understanding2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Robot Learning from a Physical World ModelarXiv에 게시된 'Robot Learning from a Physical World Model' 논문에 대한 자세한 리뷰입니다.#Review#Robot Learning#Video Generation#Physical World Model#Reinforcement Learning#Zero-shot Manipulation#Object-Centric Learning#Sim-to-Real2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Thinking with Video: Video Generation as a Promising Multimodal Reasoning ParadigmarXiv에 게시된 'Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multimodal Reasoning#Temporal Understanding#Spatial Reasoning#Foundation Models#AI Benchmarking#In-Context Learning#Self-Consistency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video GenerationarXiv에 게시된 'Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Direct Preference Optimization#SFT Regularization#GT-Pair#Memory Optimization#Diffusion Models#I2V#T2V2025년 11월 9일댓글 수 로딩 중
[논문리뷰] How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert AssessmentYuhao Zhai이 arXiv에 게시한 'How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#World Models#Surgical AI#Zero-shot Prediction#Expert Evaluation#Plausibility Gap#Medical Simulation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Phased DMD: Few-step Distribution Matching Distillation via Score Matching within SubintervalsarXiv에 게시된 'Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals' 논문에 대한 자세한 리뷰입니다.#Review#Distribution Matching Distillation#Few-step Diffusion#Score Matching#Mixture-of-Experts#Generative Models#Image Generation#Video Generation#Model Distillation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and EvaluationarXiv에 게시된 'The Quest for Generalizable Motion Generation: Data, Model, and Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#Motion Generation#Generalization#Diffusion Models#Transformer#Large-scale Dataset#Benchmark#Multimodal Learning#Video Generation2025년 10월 31일댓글 수 로딩 중
[논문리뷰] VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context LearningXiaoyu Shi이 arXiv에 게시한 'VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning' 논문에 대한 자세한 리뷰입니다.#Review#VFX Generation#In-Context Learning#Diffusion Models#Video Generation#Generalization#Attention Mask#One-Shot Adaptation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video GenerationarXiv에 게시된 'Uniform Discrete Diffusion with Metric Path for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Discrete Diffusion#Video Generation#Metric Path#Long Video Generation#Asynchronous Scheduling#Text-to-Video#Multimodal Generation2025년 10월 29일댓글 수 로딩 중
[논문리뷰] LongCat-Video Technical ReportHongyu Li이 arXiv에 게시한 'LongCat-Video Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformer#RLHF#Sparse Attention#Long Video Generation#Coarse-to-Fine Generation#Multi-task Learning#World Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Video-As-Prompt: Unified Semantic Control for Video GenerationarXiv에 게시된 'Video-As-Prompt: Unified Semantic Control for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Semantic Control#Diffusion Transformers#In-Context Learning#Mixture-of-Transformers#Video-As-Prompt#Controllable Generation#Large-scale Dataset2025년 10월 27일댓글 수 로딩 중
[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical AttentionRan Yi이 arXiv에 게시한 'UltraGen: High-Resolution Video Generation with Hierarchical Attention' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#High-Resolution#Diffusion Transformer#Hierarchical Attention#Global-Local Attention#Computational Efficiency#4K Synthesis2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation ModelsarXiv에 게시된 'MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformer#Large-scale Training#Megatron-Core#Video VAE#E-commerce AI#High-efficiency Pipeline#Preference Optimization2025년 10월 22일댓글 수 로딩 중
[논문리뷰] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video GeneratorFederico Tombari이 arXiv에 게시한 'VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-3D#Model Stitching#Multi-view Reconstruction#Video Generation#Latent Diffusion Models#Gaussian Splats#Pointmaps#Reward Finetuning2025년 10월 17일댓글 수 로딩 중
[논문리뷰] RealDPO: Real or Not Real, that is the PreferenceChenyang Si이 arXiv에 게시한 'RealDPO: Real or Not Real, that is the Preference' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Direct Preference Optimization#Preference Learning#Real Data#Human Motion Synthesis#RealDPO#RealAction-5K2025년 10월 17일댓글 수 로딩 중
[논문리뷰] ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency ConstraintsarXiv에 게시된 'ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Test-Time Search#Diffusion Models#Semantic Dependency#Adaptive Reward#Evaluation Benchmark#Prompt-Guided2025년 10월 17일댓글 수 로딩 중
[논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement LearningHengshuang Zhao이 arXiv에 게시한 'PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physical Plausibility#Reinforcement Learning#Direct Preference Optimization#Physical Representation#Diffusion Models#World Models#Image-to-Video2025년 10월 16일댓글 수 로딩 중
[논문리뷰] CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous DrivingJingcheng Ni이 arXiv에 게시한 'CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Driving#Video Generation#Diffusion Models#Spatial-Temporal Reconstruction#3D Gaussian Splatting#Variational Autoencoder#World Modeling#Multi-View Video2025년 10월 16일댓글 수 로딩 중
[논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context ConditioningQuande Liu이 arXiv에 게시한 'VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning' 논문에 대한 자세한 리뷰입니다.#Review#Video Completion#Spatio-Temporal Control#In-Context Conditioning#Video Diffusion Models#RoPE Interpolation#VAE#Unified Framework#Video Generation2025년 10월 10일댓글 수 로딩 중
[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for VideosXintao Wang이 arXiv에 게시한 'UniVideo: Unified Understanding, Generation, and Editing for Videos' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Model#Video Generation#Video Editing#MLLM#Diffusion Transformer#In-Context Learning#Zero-shot Generalization#Multimodal AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] WristWorld: Generating Wrist-Views via 4D World Models for Robotic ManipulationarXiv에 게시된 'WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation' 논문에 대한 자세한 리뷰입니다.#Review#4D World Models#Robotic Manipulation#Video Generation#Multi-view Synthesis#Visual-Language-Action (VLA)#Geometric Consistency#Diffusion Models#Wrist-View2025년 10월 9일댓글 수 로딩 중
[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video GenerationHyunwook Choi이 arXiv에 게시한 'MATRIX: Mask Track Alignment for Interaction-aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformers#Human-Object Interaction#Attention Alignment#Mask Tracking#Semantic Grounding#Semantic Propagation#Text-to-Video2025년 10월 9일댓글 수 로딩 중
[논문리뷰] LightCache: Memory-Efficient, Training-Free Acceleration for Video GenerationZheng Zhan이 arXiv에 게시한 'LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Memory Efficiency#Inference Acceleration#Training-Free#Cache Mechanism#GPU Optimization2025년 10월 8일댓글 수 로딩 중
[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video GenerationPaul Debevec이 arXiv에 게시한 'VChain: Chain-of-Visual-Thought for Reasoning in Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Chain-of-Thought#Multimodal Models#Reasoning#Inference-Time Tuning#Sparse Supervision#Diffusion Models#Keyframe Generation2025년 10월 7일댓글 수 로딩 중
[논문리뷰] ChronoEdit: Towards Temporal Reasoning for Image Editing and World SimulationarXiv에 게시된 'ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Video Generation#Temporal Reasoning#World Simulation#Physical Consistency#Diffusion Models#Generative Models2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Character Mixing for Video GenerationarXiv에 게시된 'Character Mixing for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Character Mixing#Style Preservation#Multi-character Interaction#Text-to-Video#Cross-Domain Synthesis#Identity Preservation2025년 10월 7일댓글 수 로딩 중
[논문리뷰] How Confident are Video Models? Empowering Video Models to Express their UncertaintyAnirudha Majumdar이 arXiv에 게시한 'How Confident are Video Models? Empowering Video Models to Express their Uncertainty' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Uncertainty Quantification#Aleatoric Uncertainty#Epistemic Uncertainty#Model Calibration#Text-to-Video#Generative AI#VMF Distribution2025년 10월 6일댓글 수 로딩 중
[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal IntegrationXiangyang Xia이 arXiv에 게시한 'BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Subject Consistency#Cross-Modal Integration#Diffusion Models#Multimodal LLM#Diffusion Transformer#Text-to-Video2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video GenerationarXiv에 게시된 'Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Evaluation Framework#Cinematic Control#Taxonomy#Human Annotation#Vision-Language Models#Text-to-Video2025년 10월 1일댓글 수 로딩 중
[논문리뷰] DC-VideoGen: Efficient Video Generation with Deep Compression Video AutoencoderarXiv에 게시된 'DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Video Autoencoder#Deep Compression#Model Acceleration#Fine-tuning#Latent Space#Temporal Modeling2025년 10월 1일댓글 수 로딩 중
[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear AttentionarXiv에 게시된 'SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Sparse Attention#Linear Attention#Model Acceleration#Video Generation#Attention Mechanisms#Fine-tuning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion TransformerarXiv에 게시된 'SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Model#Linear Attention#Transformer#Long Video#Efficient Inference#Constant Memory#Low-Cost Training#RTX Deployment2025년 9월 30일댓글 수 로딩 중
[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual InteractionGuoxian Song이 arXiv에 게시한 'X-Streamer: Unified Human World Modeling with Audiovisual Interaction' 논문에 대한 자세한 리뷰입니다.#Review#Digital Human#Multimodal AI#Real-time Streaming#Video Generation#Diffusion Models#Transformer Architecture#Audiovisual Synchronization#World Modeling2025년 9월 29일댓글 수 로딩 중
[논문리뷰] UniVid: Unifying Vision Tasks with Pre-trained Video Generation ModelsYuchao Gu이 arXiv에 게시한 'UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models' 논문에 대한 자세한 리뷰입니다.#Review#Unified Vision Modeling#Video Generation#Diffusion Transformer#Supervised Fine-tuning#Cross-modal#Cross-source Tasks#Visual Sentences#LoRA2025년 9월 29일댓글 수 로딩 중
[논문리뷰] PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video GenerationYiming Huang이 arXiv에 게시한 'PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physics-Grounded#Controllable Generation#Diffusion Models#Point Cloud Trajectories#Material Simulation#Generative Physics2025년 9월 25일댓글 수 로딩 중
[논문리뷰] EditVerse: Unifying Image and Video Editing and Generation with In-Context LearningTianyu Wang이 arXiv에 게시한 'EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Model#In-Context Learning#Image and Video Editing#Video Generation#Full Self-Attention#Rotary Positional Embedding#Cross-Modal Knowledge Transfer2025년 9월 25일댓글 수 로딩 중
[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer ModelsPengze Zhang이 arXiv에 게시한 'OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Insertion#Diffusion Models#Diffusion Transformers#Mask-Free#Data Augmentation#Progressive Training#Preference Optimization#Video Generation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World ModelingYang Zhou이 arXiv에 게시한 'OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling' 논문에 대한 자세한 리뷰입니다.#Review#4D World Modeling#Multi-Modal Dataset#Multi-Domain Data#Geometric Foundation Models#Video Generation#Spatio-Temporal Data#Dataset Benchmark2025년 9월 16일댓글 수 로딩 중
[논문리뷰] 3D and 4D World Modeling: A SurveyAo Liang이 arXiv에 게시한 '3D and 4D World Modeling: A Survey' 논문에 대한 자세한 리뷰입니다.#Review#3D World Modeling#4D World Modeling#Generative Models#Predictive Models#LiDAR#Occupancy Grids#Video Generation#Autonomous Driving#Robotics2025년 9월 11일댓글 수 로딩 중
[논문리뷰] CineScale: Free Lunch in High-Resolution Cinematic Visual GenerationZiwei Liu이 arXiv에 게시한 'CineScale: Free Lunch in High-Resolution Cinematic Visual Generation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#High-Resolution Generation#Image Generation#Video Generation#UNet Architecture#DiT Architecture#Scale Fusion#LoRA Fine-tuning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Waver: Wave Your Way to Lifelike Video GenerationYifu Zhang이 arXiv에 게시한 'Waver: Wave Your Way to Lifelike Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Foundation Model#Diffusion Model#Transformer#Text-to-Video#Image-to-Video#Super-Resolution#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Stand-In: A Lightweight and Plug-and-Play Identity Control for Video GenerationChen Li이 arXiv에 게시한 'Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Identity Preservation#Plug-and-Play#Diffusion Models#Self-Attention#Lightweight AI#Conditional Image Branch2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Cut2Next: Generating Next Shot via In-Context TuningYu Qiao이 arXiv에 게시한 'Cut2Next: Generating Next Shot via In-Context Tuning' 논문에 대한 자세한 리뷰입니다.#Review#Next Shot Generation#In-Context Tuning#Diffusion Transformer#Cinematic Continuity#Hierarchical Prompting#Video Generation#Shot Editing2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Omni-Effects: Unified and Spatially-Controllable Visual Effects GenerationXiaokun Feng이 arXiv에 게시한 'Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation' 논문에 대한 자세한 리뷰입니다.#Review#Visual Effects#Video Generation#LoRA#Mixture of Experts#Spatial Control#Diffusion Models#Multi-VFX2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic ManipulationShengcong Chen이 arXiv에 게시한 'Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation' 논문에 대한 자세한 리뷰입니다.#Review#Robotic Manipulation#World Model#Video Generation#Diffusion Model#Embodied AI#Foundation Model#Robotics Simulation#Policy Learning2025년 8월 8일댓글 수 로딩 중