#Diffusion Transformers

42개의 포스트

[논문리뷰] VideoRAE: Taming Video Foundation Models for Generative Modeling via Representation Autoencoders

본 논문은 기존의 3D-VAE 기반 비디오 토크나이저가 픽셀 단위의 복원(MSE)에 과도하게 최적화되어 고차원적인 의미론적 구조를 포착하지 못한다는 문제점을 해결하고자 합니다.

#Review #Video Foundation Models #Representation Autoencoders #Generative Modeling #Representation Alignment #Latent Spaces #Diffusion Transformers #Autoregressive Models

2026년 7월 19일

[논문리뷰] Registers Matter for Pixel-Space Diffusion Transformers

본 논문은 Register Tokens가 기존 ViTs에서의 고질적인 문제인 '고 norm 아웃라이어(high-norm patch-token outliers)'를 해결하는 것과 달리, DiTs에서의 구체적인 역할과 효과는 미비하게 탐구되었다는 점에 주목합니다.

#Review #Diffusion Transformers #Register Tokens #Pixel-Space #Feature Norms #Attention Sinks #Dual-Stream Architecture

2026년 7월 15일

[논문리뷰] CineMobile: On-Device Image-to-Video Diffusion for Cinematic Camera Motion Generation

본 논문은 최신 Diffusion Transformers(DiTs) 모델이 뛰어난 비디오 생성 성능에도 불구하고, 거대한 파라미터 크기와 다단계 추론 과정으로 인해 모바일 기기에서의 실시간 및 효율적 생성이 어렵다는 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Image-to-Video #On-Device AI #Model Compression #Step Distillation #Hybrid Quantization #Cinematic Motion

2026년 7월 9일

[논문리뷰] OrbitQuant: Data-Agnostic Quantization for Image and Video Diffusion Transformers

본 논문은 Diffusion Transformers의 추론 효율성을 높이기 위해 데이터 보정(calibration)이 필요 없는 새로운 Post-Training Quantization (PTQ) 프레임워크인 OrbitQuant를 제안합니다.

#Review #Diffusion Transformers #Post-Training Quantization #Data-Agnostic #RPBH Rotation #Distributional Codebook #Inference Efficiency

2026년 7월 5일

[논문리뷰] InstanceControl: Controllable Complex Image Generation without Instance Labeling

본 논문은 기존의 Controllable Image Generation 방법론들이 복잡한 다중 인스턴스 환경에서 겪는 Attribute Confusion 문제를 해결하기 위해 InstanceControl을 제안합니다 .

#Review #Controllable Image Generation #Multi-instance #Vision-Language Models #Instance-level Correspondence #Mask Refinement #Diffusion Transformers

2026년 7월 2일

[논문리뷰] DiffusionBench: On Holistic Evaluation of Diffusion Transformers

본 논문은 현재 DiT 연구가 class-conditional ImageNet generation 성능에만 지나치게 편중되어, 실제 모델의 범용적인 성능 향상을 보장하지 못하는 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #ImageNet #Text-to-Image #Benchmarking #Unified Framework #Generative Modeling

2026년 6월 23일

[논문리뷰] RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling

본 논문은 기존 비디오 생성 모델에서 관찰되는 3D spatiotemporal attention의 이차 복잡도로 인한 과도한 Inference Latency 및 계산 비용 문제를 해결하는 것을 목적으로 한다.

#Review #Video Diffusion Models #Diffusion Transformers #Training-Free Acceleration #Asynchronous Scheduling #Latent Trajectory Projection #Spatiotemporal Coherence

2026년 6월 14일

[논문리뷰] OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

본 논문은 기존 비디오 생성 모델의 카메라 제어 방식이 지닌 정밀도 한계와 데이터 희소성 문제를 해결하기 위해 OmniDirector를 제안합니다.

#Review #Video Generation #Camera Control #Multi-shot Cloning #Diffusion Transformers #Camera Grid #Multimodal Control #Prompt Expansion

2026년 6월 14일

[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

본 논문은 기존 Diffusion Transformers(DiTs) 기반 비디오 생성 모델이 가진 2차 복잡도의 연산 비용 문제를 해결하고, 고해상도 비디오 생성 효율을 높이는 것을 목표로 한다.

#Review #Video Generation #Diffusion Transformers #Sparse Attention #Sequence Parallelism #Quantization #Reinforcement Learning

2026년 5월 27일

[논문리뷰] Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

초심층 Diffusion Transformers (DiTs)를 수백 층 이상으로 확장할 때 발생하는 구조적 취약점인 '평균 지향적 붕괴(mean-dominated collapse)' 현상을 해결하는 것이 본 연구의 목적입니다.

#Review #Diffusion Transformers #Residual Stability #Mean Mode Screaming #MV-Split Residuals #Deep Scaling #Gradient Decomposition

2026년 5월 10일

[논문리뷰] Motion-Aware Caching for Efficient Autoregressive Video Generation

본 논문은 autoregressive 비디오 생성 모델에서 반복적인 denoising 프로세스로 인해 발생하는 과도한 계산 비용 문제를 해결하기 위해 MotionCache를 제안합니다.

#Review #Autoregressive Video Generation #Feature Caching #Motion-Aware Acceleration #Residual Stability #Diffusion Transformers

2026년 5월 4일

[논문리뷰] On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

최신 Text-to-Image(T2I) 모델들은 정교한 문맥 정렬 성능을 보이지만, Typicality Bias 로 인해 생성 결과가 좁은 범위의 시각적 해법에 고착되는 문제가 있습니다.

#Review #Diffusion Transformers #Generative Diversity #Contextual Space #Repulsion Mechanism #Multi-modal Attention #Typicality Bias #Token Intervention

2026년 3월 30일

[논문리뷰] WorldCache: Content-Aware Caching for Accelerated Video World Models

Diffusion Transformers (DiTs) 기반의 비디오 World Model은 물리적으로 일관된 미래 visual state를 예측하는 데 필수적이지만, 순차적인 denoising 과정과 높은 계산 비용의 spatio-temporal attention으로 인해 상당한 계산 비용이 발생합니다.

#Review #Diffusion Transformers #Video World Models #Feature Caching #Inference Acceleration #Content-Aware Caching #Motion-Adaptive Caching #Perception-Constrained Caching #Optimal Feature Approximation

2026년 3월 23일

[논문리뷰] WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

최근 Video Diffusion Transformers (DiTs)의 발전으로 Interactive Gaming World Models은 생성된 환경을 Long-Horizon으로 탐색하는 능력을 보여주었지만, 여전히 정밀한 Action Control 및 3D Consistency 확보에 어려움을 겪고 있습니다.

#Review #Interactive Gaming World Models #Camera Pose #Geometric Representation #Diffusion Transformers #Action Control #3D Consistency #Lie Algebra

2026년 3월 17일

[논문리뷰] WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

최근 Flow Matching 모델은 Latent Autoencoder의 재구성 병목 현상을 피하기 위해 픽셀 공간에서 직접 작동합니다. 그러나 픽셀 매니폴드(manifold)의 의미론적 연속성이 부족하여 최적 운송 경로가 심하게 얽히게 됩니다.

#Review #Image Generation #Flow Matching #Trajectory Conflict #Diffusion Transformers #Waypoint Diffusion Transformers #Just-Pixel AdaLN

2026년 3월 17일

[논문리뷰] Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Diffusion Transformers(DiT)의 높은 계산 비용, 특히 공간적 중복성으로 인한 실용적 배포의 어려움을 해결하는 것이 주요 목표입니다.

#Review #Diffusion Transformers #Spatial Acceleration #Training-Free #Generative AI #Flow Matching #ODE Solvers #Inference Speedup #Resource Allocation

2026년 3월 11일

[논문리뷰] Helios: Real Real-Time Long Video Generation Model

논문은 단일 NVIDIA H100 GPU 에서 19.5 FPS 로 실시간 분 단위 비디오를 생성하고, 기존의 안티-드리프팅(anti-drifting) 휴리스틱이나 가속화 기술 없이도 강력한 품질을 유지하는 최초의 14B 비디오 생성 모델 인 Helios를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Real-Time #Long Video #Diffusion Transformers #Anti-Drifting #Memory Optimization #Distillation #Autoregressive Models

2026년 3월 4일

[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

본 논문은 Diffusion Transformers (DiTs) 의 높은 계산 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Dynamic Tokenization #Patch Scheduling #Inference Acceleration #Text-to-Image Generation #Text-to-Video Generation #Latent Manifold Analysis #LoRA

2026년 2월 19일

[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.

#Review #Robotic Manipulation #Vision-Language-Action (VLA)#Foundation Models #Action Manifold Learning #Diffusion Transformers #Data Curation #Embodied AI

2026년 2월 15일

[논문리뷰] Rethinking Global Text Conditioning in Diffusion Transformers

이 논문은 확산 트랜스포머(Diffusion Transformers)에서 변조(modulation) 기반의 글로벌 텍스트 조건화(pooled text embedding) 가 필수적인지, 그리고 성능 향상에 기여할 수 있는지에 대한 질문을 해결하고자 합니다.

#Review #Diffusion Transformers #Text Conditioning #CLIP Embedding #Modulation Guidance #Text-to-Image Generation #Image Editing #Training-free

2026년 2월 10일

[논문리뷰] 360Anything: Geometry-Free Lifting of Images and Videos to 360°

본 논문은 기존의 카메라 메타데이터(FoV, 자세)에 의존하는 한계를 극복하고, 단일 시점의 이미지 및 비디오를 360° 파노라마 로 변환하는 견고하고 기하학적 제약이 없는(geometry-free) 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Panorama Generation #Diffusion Transformers #Geometry-Free Learning #Latent Encoding #Seam Artifacts #Camera Pose Estimation #Video Outpainting

2026년 1월 22일

[논문리뷰] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Diffusion Transformer (DiT) 모델은 최첨단 이미지 생성 품질을 제공하지만, 높은 계산 및 메모리 비용으로 인해 엣지 디바이스 에서의 배포가 비실용적인 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Transformers #Edge AI #Efficient Image Generation #Sparse Attention #Elastic Training #Knowledge Distillation #Mobile AI #High-Fidelity

2026년 1월 13일

[논문리뷰] SAM Audio: Segment Anything in Audio

본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Audio Source Separation #Foundation Models #Multimodal Prompting #Diffusion Transformers #Flow Matching #Self-Supervised Learning #Reference-Free Evaluation #Audio-Visual Learning

2025년 12월 23일

[논문리뷰] DeContext as Defense: Safe Image Editing in Diffusion Transformers

본 논문은 대규모 Diffusion Transformer(DiT) 기반 이미지 편집 모델 의 심각한 프라이버시 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Image Editing #Privacy Protection #Adversarial Attack #Attention Mechanism #Identity Preservation #Deepfake Defense #In-context Learning

2025년 12월 18일

[논문리뷰] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

논문은 기존 비디오 편집 모델이 겪는 배경 무결성 유지, 제한된 데이터에서의 효과 학습, 픽셀 수준 일관성 부족 등의 문제를 해결하여, 텍스트 지시에 따라 정확하고 효율적인 비디오 시각 효과(VFX) 편집 을 수행하는 것을 목표로 합니다.

#Review #Video VFX Editing #In-Context Learning #Diffusion Transformers #Few-Shot Learning #LoRA #Spatiotemporal Tokenization #Instruction-Guided

2025년 12월 17일

[논문리뷰] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

본 논문은 이미지 diffusion transformer 모델이 훈련된 해상도를 넘어선 이미지를 생성할 때 발생하는 콘텐츠 반복 및 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Resolution Extrapolation #Positional Encoding #Frequency Analysis #Adaptive Attention #High-Resolution Image Generation #Image Quality #Content Repetition

2025년 12월 4일

[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

본 논문은 기존 이미지 편집 모델들이 고정된 MLLM 인코더 를 사용하여 복잡하거나 추상적인 지시를 처리하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Editing #Reasoning-Enhanced AI #Multimodal Large Language Models #Diffusion Transformers #Thinking #Reflection #Iterative Refinement #Instruction Following

2025년 11월 30일

[논문리뷰] OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

본 연구는 RGBA(Red, Green, Blue, Alpha) 이미지 조작을 위한 기존의 파편화된 단일 태스크 전문 모델과, 알파 채널 처리 능력이 없는 통합 RGB 멀티태스크 프레임워크 간의 격차를 해소하는 것을 목표로 합니다.

#Review #RGBA Generation #Multi-Task Learning #Diffusion Transformers #Image Matting #Layer Decomposition #Object Removal #Alpha-aware VAE #MSROPE-BiL

2025년 11월 25일

[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

본 논문은 기존 Diffusion Transformer(DiT) 모델을 다양한 종횡비(AR)의 4K 해상도 로 확장할 때 발생하는 한계를 극복하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Diffusion Transformers #4K Resolution #Aspect Ratio Extrapolation #Data-Model Co-Design #VAE Post-training #Positional Encoding #Diffusion Models

2025년 11월 24일

[논문리뷰] LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

본 논문은 비디오 생성 Diffusion Transformers (DiT)의 Quadratic attention complexity 로 인한 과도한 지연 시간 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Sparse Attention #Temporal Coherence #Video Generation #Computational Efficiency #FlashAttention #CUDA Kernels

2025년 11월 16일

[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

본 논문은 세계 모델이 증강된 Vision-Language-Action (VLA) 모델에서 차세대 관측 및 액션 시퀀스를 공동으로 예측하는 데 내재된 모달리티 충돌 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #World Models #Diffusion Models #Multimodal Learning #Robotics #Asynchronous Sampling #Diffusion Transformers

2025년 11월 9일

[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

본 논문은 Diffusion Transformer (DiT) 모델, 특히 비디오 생성에서 긴 시퀀스 길이로 인한 어텐션의 2차 시간 복잡도 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Sparse Attention #Linear Attention #Model Acceleration #Video Generation #Attention Mechanisms #Fine-tuning

2025년 9월 30일

[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

본 논문은 기존 비디오 삽입 모델의 복잡한 제어 신호(예: 마스크, 포인트) 의존성, 주제 일관성 부족, 그리고 데이터 희소성 문제를 해결하여 Mask-free Video Insertion (MVI) 의 실용성을 높이는 것을 목표로 합니다.

#Review #Video Insertion #Diffusion Models #Diffusion Transformers #Mask-Free #Data Augmentation #Progressive Training #Preference Optimization #Video Generation

2025년 9월 23일

[논문리뷰] ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

훈련 없이 비디오 객체 편집(삽입, 교체, 삭제)을 수행할 때 발생하는 정확한 인버전 실패와 부적절한 특성 대체로 인한 문맥적 충돌 문제를 해결하고, 특히 Diffusion Transformer (DiT) 기반 모델 에서 고품질 및 시간적 일관성을 유지하는 비디오 객체 편집 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Video Object Editing #Training-Free #Diffusion Transformers #Rectified Flow #Adaptive Context Enrichment #Guidance Responsiveness #Temporal Consistency #Image-to-Video

2025년 9월 23일

[논문리뷰] EgoTwin: Dreaming Body and View in First Person

본 논문은 egocentric video 생성 분야의 미개척 영역을 탐구하며, 특히 카메라 착용자의 모션과 시점이 일관되고 인과적으로 연결된 방식으로 egocentric video와 인간 모션을 공동 생성하는 새로운 태스크를 제시합니다.

#Review #Egocentric Video Generation #Human Motion Synthesis #Diffusion Transformers #Multimodal Generation #Viewpoint Alignment #Causal Interplay #First-Person Vision

2025년 8월 25일

[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

본 논문은 텍스트 지시 기반의 이미지 및 비디오 색상 편집에서 물리적 일관성 을 유지하며 정교한 제어를 가능하게 하는 미해결 문제를 다룹니다. 기존의 훈련 불필요(training-free) 방법론들이 정확한 색상 제어와 시각적 불일치 문제를 겪는 한계를 극복하고자 합니다.

#Review #Text-Guided Editing #Color Editing #Diffusion Transformers #Training-Free #Multi-Modal AI #Attention Control #Image Manipulation

2025년 8월 20일

[논문리뷰] DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

기존 비디오 가상 피팅(VVT) 기술의 한계, 즉 데이터 부족, 디테일 보존 실패, 비제약적 환경에서의 시간적 일관성 부족 문제를 해결하는 것이 목표입니다. 특히, 실제 시나리오에서 다양한 의류와 환경에 대한 적응성을 높여 고품질의 사실적인 비디오 가상 피팅 을 구현하고자 합니다.

#Review #Video Virtual Try-On #Diffusion Transformers #Stage-Wise Framework #Vision-Language Models #LoRA #Temporal Consistency #Garment Preservation

2025년 8월 7일

[논문리뷰] Group Relative Attention Guidance for Image Editing

본 논문은 Diffusion-in-Transformer ( DiT ) 모델 기반 이미지 편집 방법론이 편집 강도 제어에 있어 효과적인 수단을 결여하고 있어 맞춤형 결과 도출에 한계가 있음을 지적합니다.

#Review #Image Editing #Diffusion Transformers #Attention Mechanism #Guidance Mechanism #Controllability #Fine-grained Control #GRAG

2025년 10월 29일

[논문리뷰] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

오디오 기반 인물 애니메이션 모델이 장시간 생성 시 겪는 캐릭터 정체성(identity) 표류 문제를 해결하고, 기존 키프레임 기반 방법론의 한계를 극복하여 일관된 캐릭터 정체성 과 높은 시각적 품질 을 유지하는 것을 목표로 합니다.

#Review #Audio-driven Animation #Identity Preservation #Diffusion Transformers #Long-form Video Generation #Temporal Autoregression #Keyframe Anchoring #Self-keyframing

2025년 10월 28일

[논문리뷰] Video-As-Prompt: Unified Semantic Control for Video Generation

이 논문은 비디오 생성 분야에서 통합적이고 일반화 가능한 의미론적 제어라는 중요한 과제를 해결하고자 합니다. 기존 방법론들이 부적절한 픽셀 단위 사전 정보를 강요하여 아티팩트를 생성하거나, 특정 조건에 대한 파인튜닝이나 태스크별 아키텍처에 의존하여 일반화가 어렵다는 문제를 극복하는 것을 목표로 합니다.

#Review #Video Generation #Semantic Control #Diffusion Transformers #In-Context Learning #Mixture-of-Transformers #Video-As-Prompt #Controllable Generation #Large-scale Dataset

2025년 10월 27일

[논문리뷰] MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

본 논문은 Diffusion Transformers (DiTs) 기반의 긴 비디오 생성에서 발생하는 전체 어텐션의 2차 시간 복잡도 문제 를 해결하고자 합니다.

#Review #Long Video Generation #Sparse Attention #Diffusion Transformers #Mixture-of-Groups Attention #Token Routing #Computational Efficiency #Context Length

2025년 10월 22일

[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video Generation

본 논문은 비디오 Diffusion Transformers (DiTs)가 다중 인스턴스 또는 주체-객체 상호작용을 어떻게 내부적으로 표현하는지 분석하고, 상호작용 인지 비디오 생성 능력을 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformers #Human-Object Interaction #Attention Alignment #Mask Tracking #Semantic Grounding #Semantic Propagation #Text-to-Video

2025년 10월 9일