본문으로 건너뛰기

#Diffusion Transformer

64개의 포스트

[논문리뷰] StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration

댓글 수 로딩 중

[논문리뷰] Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

댓글 수 로딩 중

[논문리뷰] GEM: Generative Supervision Helps Embodied Intelligence

댓글 수 로딩 중

[논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion

댓글 수 로딩 중

[논문리뷰] iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

댓글 수 로딩 중

[논문리뷰] ChangeFlow -- Latent Rectified Flow for Change Detection in Remote Sensing

댓글 수 로딩 중

[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

댓글 수 로딩 중

[논문리뷰] ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

댓글 수 로딩 중

[논문리뷰] CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

댓글 수 로딩 중

[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

댓글 수 로딩 중

[논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

댓글 수 로딩 중

[논문리뷰] LPM 1.0: Video-based Character Performance Model

댓글 수 로딩 중

[논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

댓글 수 로딩 중

[논문리뷰] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

댓글 수 로딩 중

[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

댓글 수 로딩 중

[논문리뷰] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

댓글 수 로딩 중

[논문리뷰] Dynamic Chunking Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

댓글 수 로딩 중

[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

댓글 수 로딩 중

[논문리뷰] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

댓글 수 로딩 중

[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report

댓글 수 로딩 중

[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

댓글 수 로딩 중

[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model

댓글 수 로딩 중

[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context

댓글 수 로딩 중

[논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] SpotEdit: Selective Region Editing in Diffusion Transformers

댓글 수 로딩 중

[논문리뷰] Kling-Omni Technical Report

댓글 수 로딩 중

[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

댓글 수 로딩 중

[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations

댓글 수 로딩 중

[논문리뷰] HunyuanVideo 1.5 Technical Report

댓글 수 로딩 중

[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

댓글 수 로딩 중

[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

댓글 수 로딩 중

[논문리뷰] LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation

댓글 수 로딩 중

[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation

댓글 수 로딩 중

[논문리뷰] From Editor to Dense Geometry Estimator

댓글 수 로딩 중

[논문리뷰] Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation

댓글 수 로딩 중

[논문리뷰] Cut2Next: Generating Next Shot via In-Context Tuning

댓글 수 로딩 중

[논문리뷰] Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

댓글 수 로딩 중

[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos

댓글 수 로딩 중

[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical Attention

댓글 수 로딩 중

[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

댓글 수 로딩 중

[논문리뷰] ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

댓글 수 로딩 중

[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

댓글 수 로딩 중