본문으로 건너뛰기

#Diffusion Transformers

34개의 포스트

[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

댓글 수 로딩 중

[논문리뷰] WorldCache: Content-Aware Caching for Accelerated Video World Models

댓글 수 로딩 중

[논문리뷰] WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

댓글 수 로딩 중

[논문리뷰] WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

댓글 수 로딩 중

[논문리뷰] Helios: Real Real-Time Long Video Generation Model

댓글 수 로딩 중

[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

댓글 수 로딩 중

[논문리뷰] Rethinking Global Text Conditioning in Diffusion Transformers

댓글 수 로딩 중

[논문리뷰] 360Anything: Geometry-Free Lifting of Images and Videos to 360°

댓글 수 로딩 중

[논문리뷰] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

댓글 수 로딩 중

[논문리뷰] SAM Audio: Segment Anything in Audio

댓글 수 로딩 중

[논문리뷰] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

댓글 수 로딩 중

[논문리뷰] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

댓글 수 로딩 중

[논문리뷰] OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

댓글 수 로딩 중

[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

댓글 수 로딩 중

[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

댓글 수 로딩 중

[논문리뷰] ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

댓글 수 로딩 중

[논문리뷰] EgoTwin: Dreaming Body and View in First Person

댓글 수 로딩 중

[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

댓글 수 로딩 중

[논문리뷰] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

댓글 수 로딩 중

[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video Generation

댓글 수 로딩 중

[논문리뷰] Video-As-Prompt: Unified Semantic Control for Video Generation

댓글 수 로딩 중