[논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision본 논문은 Vanast를 통해 단일 단계에서 고충실도의 애니메이션을 합성하는 end-to-end 시스템을 제안합니다. 핵심 방법론인 Dual Module은 인간 애니메이션 모듈(HAM)과 의류 전송 모듈(GTM)로 나뉘어 사전 학습된 Video DiT 백본을 공유하며, 학습 시에는 이 두 모듈만을 최적화하여 빠른 수렴을 도모합니다 .#Review#Virtual Try-On#Human Image Animation#Diffusion Transformer#Synthetic Triplet Supervision#Dual Module Architecture#Zero-shot Garment Interpolation2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers본 논문은 Linear Attention 기반 모델을 위한 통합 게이트 조건 주입 모듈인 GateControl을 제안합니다. 이 방식은 학습 가능한 게이트를 통해 토큰별로 중요한 조건 정보만을 선택적으로 보존함으로써, 기존의 Multimodal Attention 없이도 강력한 제어 성능을 달성합니다.#Review#Diffusion Transformer#Linear Attention#Controllable Generation#Gated Condition Injection#On-device AI2026년 4월 2일댓글 수 로딩 중
[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face GenerationAjita Rattani이 arXiv에 게시한 'MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#Multimodal Face Generation#Cross-Modal Fusion#RoPE Attention#Controlled Generation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied SimulationTianqi Liu이 arXiv에 게시한 'Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#4D Generative World Model#Spatiotemporal-aware#Kinematic Control#Robotic Simulation#Diffusion Transformer#Pointmap2026년 3월 17일댓글 수 로딩 중
[논문리뷰] V2M-Zero: Zero-Pair Time-Aligned Video-to-Music GenerationarXiv에 게시된 'V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video-to-Music Generation#Temporal Alignment#Zero-Pair Learning#Rectified Flow Model#Diffusion Transformer#Event Curves#Modality Gap Mitigation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image EditingDan Xu이 arXiv에 게시한 'CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Models#Mixture-of-Experts (MoE)#Condition-Aware Routing#Contextual Image Editing#Mask Repaint#Latent Mixture#Diffusion Transformer2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Dynamic Chunking Diffusion TransformerarXiv에 게시된 'Dynamic Chunking Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#Dynamic Chunking#Adaptive Patching#Image Generation#Computational Efficiency#Token Reduction#Spatial Segmentation#Load Balancing2026년 3월 8일댓글 수 로딩 중
[논문리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing modelarXiv에 게시된 'SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model' 논문에 대한 자세한 리뷰입니다.#Review#Multi-modal Generation#Video-Audio Synthesis#Video Inpainting#Video Editing#Diffusion Transformer#MMLM#Super-resolution#Frame Interpolation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video GenerationarXiv에 게시된 'JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Joint Audio-Video Generation#Diffusion Transformer#Modality-specific Mixture-of-Experts#Temporal-Aligned ROPE#Direct Preference Optimization#Multimodal Generation#Text-to-AV2026년 2월 25일댓글 수 로딩 중
[논문리뷰] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video GenerationarXiv에 게시된 'DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Video Generation#Human-Centric AI#Diffusion Transformer#Multi-Task Learning#Identity Disentanglement#Controllable Generation#Speaker Confusion2026년 2월 25일댓글 수 로딩 중
[논문리뷰] FireRed-Image-Edit-1.0 Techinical ReportCunzheng Wang이 arXiv에 게시한 'FireRed-Image-Edit-1.0 Techinical Report' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Transformer#Instruction-based Editing#Data Curation#Reinforcement Learning#Multimodal Models#REDEdit-Bench#Generative AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time ExecutionarXiv에 게시된 'Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA)#Real-Time Robotics#Diffusion Transformer#Flow Matching#Asynchronous Execution#Robot Manipulation#Pre-training#Catastrophic Forgetting2026년 2월 15일댓글 수 로딩 중
[ACE-Step-1.5] Apple Silicon을 위한 네이티브 MLX DiT 백엔드 도입: 2-3배 성능 향상PyTorch MPS의 오버헤드를 제거하고 Apple Silicon에서 DiT 추론 속도를 2-3배 가속화하는 네이티브 MLX 백엔드 구현.#Apple Silicon#MLX#Diffusion Transformer#Performance Optimization#PyTorch2026년 2월 11일댓글 수 로딩 중
[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio GenerationarXiv에 게시된 'MOVA: Towards Scalable and Synchronized Video-Audio Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video-Audio Generation#Diffusion Transformer#Multimodal AI#Lip Synchronization#Open Source#Data Curation#Dual-Tower Architecture#Cross-Attention2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Plenoptic Video GenerationarXiv에 게시된 'Plenoptic Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Generative Video#Camera Control#Plenoptic Function#Autoregressive Model#Diffusion Transformer#3D FOV Retrieval#Spatio-Temporal Consistency2026년 1월 8일댓글 수 로딩 중
[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation ModelAndrew Kvochko이 arXiv에 게시한 'LTX-2: Efficient Joint Audio-Visual Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Text-to-Audio-Video#Diffusion Transformer#Cross-Modal Attention#Classifier-Free Guidance#Efficient Inference#Foundation Model2026년 1월 6일댓글 수 로딩 중
[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal ContextKun Gai이 arXiv에 게시한 'VINO: A Unified Visual Generator with Interleaved OmniModal Context' 논문에 대한 자세한 리뷰입니다.#Review#Unified Generation#Multimodal Diffusion#Vision-Language Model#Image Editing#Video Editing#Interleaved Context#Progressive Training#Diffusion Transformer2026년 1월 5일댓글 수 로딩 중
[논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion TransformerarXiv에 게시된 'DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Video Face Swapping#Diffusion Transformer#Identity Preservation#Temporal Consistency#Modality-Aware Conditioning#Reinforcement Learning#Data Synthesis2026년 1월 5일댓글 수 로딩 중
[논문리뷰] SpotEdit: Selective Region Editing in Diffusion TransformersarXiv에 게시된 'SpotEdit: Selective Region Editing in Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#Image Editing#Selective Editing#Computational Efficiency#Training-Free#Region-Aware#Perceptual Similarity2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation ModelarXiv에 게시된 'Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Visual Generation#Diffusion Transformer#Multimodal AI#Speech Synchronization#Video Generation#Reinforcement Learning from Human Feedback#Inference Acceleration2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Kling-Omni Technical ReportarXiv에 게시된 'Kling-Omni Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multimodal Visual Language#Generative AI#Video Editing#Reasoning-enhanced Generation#Diffusion Transformer#Multi-modal World Simulators2025년 12월 18일댓글 수 로딩 중
[논문리뷰] OmniPSD: Layered PSD Generation with Diffusion TransformerCheng Liu이 arXiv에 게시한 'OmniPSD: Layered PSD Generation with Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#PSD Generation#Image Decomposition#RGBA-VAE#In-Context Learning#Text-to-PSD#Image-to-PSD2025년 12월 10일댓글 수 로딩 중
[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot ManipulatorsYaobo Liang이 arXiv에 게시한 'VideoVLA: Video Generators Can Be Generalizable Robot Manipulators' 논문에 대한 자세한 리뷰입니다.#Review#Robot Manipulation#Video Generation Models#Vision-Language-Action (VLA)#Diffusion Transformer#Generalization#Action Prediction#Visual Imagination2025년 12월 8일댓글 수 로딩 중
[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose RepresentationsarXiv에 게시된 'SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations' 논문에 대한 자세한 리뷰입니다.#Review#Character Animation#3D Pose Representation#In-Context Learning#Diffusion Transformer#Studio-Grade Animation#Spatio-Temporal Reasoning#Video Generation2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion TransformerarXiv에 게시된 'Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#Efficient Training#Multi-Modal Learning#Text-to-Image Generation#Image Editing#RLHF#Photorealistic Rendering2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Plan-X: Instruct Video Generation via Semantic PlanningChenxu Zhang이 arXiv에 게시한 'Plan-X: Instruct Video Generation via Semantic Planning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Semantic Planning#Multimodal LLM#Diffusion Transformer#Spatio-temporal Guidance#Visual Hallucination#Prompt Alignment#Instruction Following2025년 11월 24일댓글 수 로딩 중
[논문리뷰] HunyuanVideo 1.5 Technical ReportFang Yang이 arXiv에 게시한 'HunyuanVideo 1.5 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformer#Sparse Attention#Super-Resolution#Open-Source#Multimodal Understanding#Training Optimization#Efficient Inference2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video GenerationVladimir Arkhipkin이 arXiv에 게시한 'Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Video Generation#Diffusion Models#Flow Matching#Diffusion Transformer#NABLA#RLHF#Supervised Fine-tuning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal InteractionsarXiv에 게시된 'UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions' 논문에 대한 자세한 리뷰입니다.#Review#Joint Audio-Video Generation#Cross-Modal Interaction#Diffusion Transformer#Face-Aware Modulation#Classifier-Free Guidance#Multimodal AI#Generative Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LongCat-Video Technical ReportHongyu Li이 arXiv에 게시한 'LongCat-Video Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformer#RLHF#Sparse Attention#Long Video Generation#Coarse-to-Fine Generation#Multi-task Learning#World Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical AttentionRan Yi이 arXiv에 게시한 'UltraGen: High-Resolution Video Generation with Hierarchical Attention' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#High-Resolution#Diffusion Transformer#Hierarchical Attention#Global-Local Attention#Computational Efficiency#4K Synthesis2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation ModelsarXiv에 게시된 'MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformer#Large-scale Training#Megatron-Core#Video VAE#E-commerce AI#High-efficiency Pipeline#Preference Optimization2025년 10월 22일댓글 수 로딩 중
[논문리뷰] ConsistEdit: Highly Consistent and Precise Training-free Visual EditingXili Dai이 arXiv에 게시한 'ConsistEdit: Highly Consistent and Precise Training-free Visual Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Video Editing#Diffusion Transformer#Attention Control#Training-free#Multi-modal Diffusion Transformer (MM-DiT)#Consistency Preservation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for VideosXintao Wang이 arXiv에 게시한 'UniVideo: Unified Understanding, Generation, and Editing for Videos' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Model#Video Generation#Video Editing#MLLM#Diffusion Transformer#In-Context Learning#Zero-shot Generalization#Multimodal AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal IntegrationXiangyang Xia이 arXiv에 게시한 'BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Subject Consistency#Cross-Modal Integration#Diffusion Models#Multimodal LLM#Diffusion Transformer#Text-to-Video2025년 10월 2일댓글 수 로딩 중
[논문리뷰] UniVid: Unifying Vision Tasks with Pre-trained Video Generation ModelsYuchao Gu이 arXiv에 게시한 'UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models' 논문에 대한 자세한 리뷰입니다.#Review#Unified Vision Modeling#Video Generation#Diffusion Transformer#Supervised Fine-tuning#Cross-modal#Cross-source Tasks#Visual Sentences#LoRA2025년 9월 29일댓글 수 로딩 중
[논문리뷰] LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion TransformerarXiv에 게시된 'LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Universal Image Restoration#Diffusion Transformer#Caption-Free#Semantic Alignment#Image Quality Assessment#Data Curation#Real-World Degradations#Deep Learning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image GenerationYunpeng Chen이 arXiv에 게시한 'Seedream 4.0: Toward Next-generation Multimodal Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Image Generation#Diffusion Transformer#VAE#Image Editing#Text-to-Image#Model Acceleration#Human Evaluation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Lynx: Towards High-Fidelity Personalized Video GenerationLinjie Luo이 arXiv에 게시한 'Lynx: Towards High-Fidelity Personalized Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Personalized Video Generation#Diffusion Transformer#Identity Preservation#Video Synthesis#Adapter Networks#Facial Recognition#Cross-Attention2025년 9월 22일댓글 수 로딩 중
[논문리뷰] From Editor to Dense Geometry EstimatorLang Nie이 arXiv에 게시한 'From Editor to Dense Geometry Estimator' 논문에 대한 자세한 리뷰입니다.#Review#Dense Geometry Estimation#Diffusion Transformer#Image Editing#Zero-shot Learning#Depth Estimation#Normal Estimation#Flow Matching#Logarithmic Quantization2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face GenerationKai Li이 arXiv에 게시한 'Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#Mixture of Experts#Controllable Generation#Face Generation#Multimodal Synthesis#Semantic Control#Image Generation2025년 9월 4일댓글 수 로딩 중
[논문리뷰] GenCompositor: Generative Video Compositing with Diffusion TransformerLingen Li이 arXiv에 게시한 'GenCompositor: Generative Video Compositing with Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Video Compositing#Diffusion Transformer#Generative Models#Video Editing#Position Embedding#Diffusion Models#Masked Token Injection#Video Harmonization2025년 9월 3일댓글 수 로딩 중
[논문리뷰] ROSE: Remove Objects with Side Effects in VideosHantang Liu이 arXiv에 게시한 'ROSE: Remove Objects with Side Effects in Videos' 논문에 대한 자세한 리뷰입니다.#Review#Video Object Removal#Side Effects#3D Rendering#Diffusion Transformer#Video Inpainting#Synthetic Data#Difference Mask2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Cut2Next: Generating Next Shot via In-Context TuningYu Qiao이 arXiv에 게시한 'Cut2Next: Generating Next Shot via In-Context Tuning' 논문에 대한 자세한 리뷰입니다.#Review#Next Shot Generation#In-Context Tuning#Diffusion Transformer#Cinematic Continuity#Hierarchical Prompting#Video Generation#Shot Editing2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Offjgkwak이 arXiv에 게시한 'Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off' 논문에 대한 자세한 리뷰입니다.#Review#Virtual Try-On#Virtual Try-Off#Diffusion Transformer#Bidirectional Learning#Generative AI#Fashion Synthesis#Attention Mechanism#Self-Correction2025년 8월 11일댓글 수 로딩 중