#Diffusion Transformer

86개의 포스트

[논문리뷰] Qwen-Music Technical Report

본 논문은 음악 생성 시스템에서 발생하는 의미론적 구성(semantic composition)과 음향적 렌더링(acoustic rendering) 사이의 불일치 문제를 해결하고자 합니다. 기존의 대규모 오디오 생성 모델들은 가사, 멜로디, 리듬 등 복잡한 음악적 요소를 장시간 일관성 있게 제어하는 데 한계를 보입니다.

#Review #Music Generation #Music Semantic Tokens #Melody-CoT #Diffusion Transformer #Spec-VAE #Post-training Alignment

2026년 7월 19일

[논문리뷰] Boogu-Image-0.1: Boosting Open-Source Unified Multimodal Understanding and Generation

본 연구는 기존 오픈소스 생성 모델이 상업적 frontier 모델 대비 복잡한 의도를 해석하는 Understanding 능력이 부족하다는 점을 해결하고자 합니다.

#Review #Unified Multimodal #Text-to-Image #Agentic Inference #Data Curation #Diffusion Transformer #Instruction-Driven Generation

2026년 7월 15일

[논문리뷰] Motion4Motion: Motion Transfer Across Subjects at Inference

본 논문은 기존 모션 전이 방식이 스켈레톤 구조에 지나치게 의존함으로써 겪는 범용성 부족 문제를 해결하고자 합니다. 대다수의 기존 연구는 인간 중심의 스켈레톤 사전 지식을 강제하여, 동물과 같이 다양한 형태의 캐릭터 간 모션 전이에 적용하기 어렵습니다 .

#Review #Motion Transfer #Training-free #Diffusion Transformer #Attention Control #Video Generation #Cross-species #Motion Flow

2026년 7월 13일

[논문리뷰] CtrlVTON: Controllable Virtual Try-On via Visual-Instance-Prompt Segmentation

본 논문은 기존 가상 착장(VTO) 시스템이 의류의 스타일, 크기, 공간적 배치와 같은 사용자 수준의 미세한 제어를 지원하지 못한다는 한계를 해결하고자 한다.

#Review #Virtual Try-On #Image Editing #Visual-Instance-Prompt Segmentation #Segmentation Masks #Diffusion Transformer #Controllability

2026년 7월 13일

[논문리뷰] Scaling Mixture-of-Experts Video Pretraining for Embodied Intelligence

기존의 비디오 생성 모델들은 주로 시각적 품질과 창의성에 집중하고 있어, embodied intelligence가 요구하는 물리적 현실성(physical realism)과 제어 가능성(controllability)이 부족한 도메인 불일치 문제를 겪고 있습니다.

#Review #Mixture-of-Experts #Video Pretraining #Embodied Intelligence #Diffusion Transformer #Reinforcement Learning #Scalability

2026년 7월 8일

[논문리뷰] Infinite Worlds with Versatile Interactions

본 논문은 interactive world model이 실시간성과 장기적 안정성을 동시에 확보하지 못하는 한계를 해결하고자 합니다.

#Review #World Models #Causal Video Generation #Interactive Simulation #Agentic Harness #Diffusion Transformer #Long-horizon Stability

2026년 7월 8일

[논문리뷰] TerraDiT-Ω: Unified Spatial Control for Satellite Image Synthesis with Any Geospatial Primitive

본 논문은 기존의 위성 이미지 생성 모델들이 데이터 변환 과정에서 발생하는 기하학적 정보 손실과 컴퓨팅 병목 현상이라는 한계점에 직면해 있음을 지적한다. 기존 연구들은 위성 데이터를 Raster 기반으로 변환하여 사용하는데, 이는 정교한 지형적 특징을 왜곡하며 모델의 범용성을 저해한다 .

#Review #Satellite Imagery #Generative Models #Spatial Control #Geospatial Primitive #Diffusion Transformer #GALA #Synthetic Data Augmentation

2026년 6월 30일

[논문리뷰] MemLearner: Learning to Query Context memory for Video World Models

본 논문은 Video World Models가 긴 시간의 생성 과정에서 장면의 일관성을 유지하지 못하는 메모리 부족 문제를 해결하고자 한다.

#Review #Video World Models #Context Memory #Adaptive Query Tokens #Diffusion Transformer #Learnable Memory

2026년 6월 30일

[논문리뷰] Walking in the Implicit: Interactive World Exploration via Neural Scene Representation

본 논문은 기존의 카메라 제어 기반 상호작용 세계 모델(Interactive World Model)들이 겪는 장기적인 일관성 유지 문제를 해결하고자 합니다.

#Review #Interactive World Exploration #Camera-Controlled Generation #Neural Implicit Scene #Neural Scene Representation #Diffusion Transformer

2026년 6월 29일

[논문리뷰] PhysiFormer: Learning to Simulate Mechanics in World Space

본 연구는 영상 기반의 물리 모델링이 겪는 뷰 의존성과 물리 법칙 위배 문제를 해결하고, 3D Mesh 수준에서 직접 물리 시뮬레이션을 수행하는 PhysiFormer를 제안합니다.

#Review #PhysiFormer #Diffusion Transformer #3D Mesh #World Space Simulation #Physically-plausible #Trajectory Prediction

2026년 6월 25일

[논문리뷰] UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating

본 논문은 기존의 다중 샷(multi-shot) 비디오 생성 모델들이 샷 간의 일관성(cross-shot coherence) 유지와 장기적인 내러티브 확장성이라는 두 가지 핵심 과제를 해결하지 못하는 문제를 다룹니다.

#Review #Multi-shot Video Generation #Memory-driven #Boundary-aware Gating #Diffusion Transformer #Audio-Visual Generation

2026년 6월 24일

[논문리뷰] TryOnCrafter: Unleashing Camera Trajectories for Realistic Video Virtual Try-on via a Renderable 4D Try-on Proxy

기존의 Video Virtual Try-on (VVT) 연구들은 입력 영상의 카메라 궤적에 종속되어 있어, 사용자가 원하는 다양한 각도에서의 의류 확인이 불가능하다는 구조적 한계가 존재함.

#Review #Video Virtual Try-on #Camera-controllable #4D Try-on Proxy #3DGS #Diffusion Transformer #CaM-VVTBench

2026년 6월 24일

[논문리뷰] LooseControlVideo: Directorial Video Control using Spatial Blocking

본 연구는 고품질 비디오 생성 모델에서 사용자 의도를 반영한 정밀한 3D 공간 제어와 복잡한 다중 객체 상호작용의 부재를 해결하고자 합니다.

#Review #Video Generation #Video Editing #Diffusion Transformer #3D-Aware Control #Spatial Blocking #DNOCS #Motion Orchestration

2026년 6월 18일

[논문리뷰] PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation

기존의 World Foundation Models는 대부분 단일 뷰(Single-view) 기반으로 동작하거나, 다중 뷰를 단순히 시퀀스 차원에서 연결(Concatenation)하는 방식을 취하여 로봇 조작에 필수적인 3D 일관성 문제를 해결하지 못한다.

#Review #World Foundation Model #Robotic Manipulation #3D Consistency #Diffusion Transformer #Flow Matching #Multi-view Generation

2026년 6월 17일

[논문리뷰] Kairos: A Native World Model Stack for Physical AI

본 논문은 현재 World Model이 단순한 비디오 생성기를 넘어 Physical AI를 위한 근본적인 인프라로 진화해야 한다는 필요성에서 출발한다 .

#Review #Physical AI #World Model #Diffusion Transformer #Gated Linear Attention #Cross-Embodiment #Deployment-Aware #Embodied Control

2026년 6월 17일

[논문리뷰] RefGC-SR^2: Reference-guided Generated Content Super-Resolution and Refinement

본 연구는 사용자 제공 고해상도 참조 이미지(HRRI)를 저해상도(LR)로 다운샘플링하여 입력하는 기존 파이프라인의 정보 손실 문제와, 이로 인해 발생하는 생성 아티팩트를 동시에 해결하고자 합니다.

#Review #Reference-guided Generation #Super-Resolution #Generative Artifact Refinement #Diffusion Transformer #Frequency-adaptive Mixture of LoRA #Post-processing

2026년 6월 16일

[논문리뷰] UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

본 논문은 기존의 Multimodal 모델들이 Understanding과 Generation이라는 서로 다른 과업을 수행할 때 겪는 효율성 저하와 아키텍처 불일치 문제를 해결하기 위해 고안되었습니다.

#Review #Multimodal Understanding #Generation #Diffusion Transformer #Decoupled Architecture #Unified Framework

2026년 6월 15일

[논문리뷰] MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

본 논문은 Frozen Diffusion Transformer 백본으로부터 Dense한 Perceptual 정보(Semantic segmentation, depth, saliency 등)를 효과적으로 추출하여 Multi-modal 생성 시스템으로 확장하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Multi-Modal Generation #Multi-Timestep Feature Fusion #Concept-Driven Attention #Synthetic Data Generation #Frozen Backbone

2026년 6월 15일

[논문리뷰] World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

본 논문은 기존의 단일 이미지 3D 추정 방식이 가진 '충실도(Faithfulness)'와 '완전성(Completeness)' 사이의 상충 문제를 해결하고자 합니다.

#Review #World Tracing #Pixel-Aligned #Geometry Generation #Diffusion Transformer #Flow Matching #Multilayer #3D Vision

2026년 6월 14일

[논문리뷰] Text-to-Image Models Need Less from Text Encoders Than You Think

본 논문은 최신 Text-to-Image(TTI) 모델들이 복잡한 Text Encoder에 크게 의존하는 현상을 분석하고, 과연 이러한 모델들이 실제로 풍부한 문맥 정보를 활용하는지 의문을 제기합니다.

#Review #Text-to-Image #Diffusion Transformer #Text Encoder #Contextless Embedding #Bag-of-Position-Tagged-Words #Compositionality

2026년 6월 8일

[논문리뷰] SwiftVR: Real-Time One-Step Generative Video Restoration

본 논문은 실시간 비디오 스트리밍 환경에서 고해상도 복원을 수행하기 위한 제너레이티브 VR 모델의 배포 문제를 해결합니다.

#Review #Generative Video Restoration #Real-time #Diffusion Transformer #Shifted-Window Attention #Streaming Inference

2026년 6월 8일

[논문리뷰] AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing

본 논문은 기존 World-Action Model(WAM)이 월드 모델링과 액션 실행을 동일한 시간 해상도로 강제 결합함으로써 발생하는 구조적 비효율 문제를 해결하고자 합니다 .

#Review #Robot Learning #Embodied Manipulation #World-Action Model #Diffusion Transformer #Asynchronous Inference #Horizon-Adaptive #Observation-Guided Context Routing

2026년 6월 8일

[논문리뷰] StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration

본 논문은 실시간 streaming 환경에서 긴 호흡의(long-horizon) 캐릭터 오디오-비디오를 생성할 때 발생하는 transcript-audio 불일치와 시각적 품질 저하 문제를 해결합니다 .

#Review #Streaming #Character Animation #Audio-Video Generation #Decoupled Orchestration #Diffusion Transformer #Knowledge Distillation #Long-Horizon Coherence

2026년 6월 1일

[논문리뷰] SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

본 논문은 실시간 스트리밍 Video-to-Video(V2V) 편집에서 발생하는 시간적 일관성 유지와 추론 성능 제한 문제를 해결하기 위해 SANA-Streaming을 제안한다.

#Review #Diffusion Transformer #Streaming Video Editing #Hybrid Architecture #Cycle-Reverse Regularization #Mixed-Precision Quantization #Real-time Inference

2026년 5월 31일

[논문리뷰] Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

본 논문은 기존 비디오 세계 모델이 단일 에이전트 환경에 집중되어 있어, 다중 에이전트가 상호작용하는 복잡한 공유 환경을 효율적으로 시뮬레이션하지 못하는 문제를 해결합니다.

#Review #Generative World Model #Multi-Agent Interaction #Diffusion Transformer #Permutation Symmetry #Rotary Positional Embedding #Sparse Hub Attention

2026년 5월 27일

[논문리뷰] GEM: Generative Supervision Helps Embodied Intelligence

본 논문은 현재의 Embodied VLM들이 고수준의 언어적 추론에는 능숙하지만, 실제 물리 환경에서 로봇을 제어하기 위한 미세한 공간적 구조와 물리적 인지 능력이 결합되지 못하는 한계를 해결하고자 합니다.

#Review #Embodied Intelligence #Vision-Language Models #Generative Supervision #Depth Map Prediction #Diffusion Transformer #Robot Manipulation #Spatiotemporal Planning

2026년 5월 27일

[논문리뷰] CubePart: An Open-Vocabulary Part-Controllable 3D Generator

기존의 3D 생성 모델은 모놀리식 메쉬(monolithic mesh)를 생성하거나, 사용자가 제어할 수 없는 임의의 파트 단위로만 분해하여 게임 엔진이나 물리 시뮬레이션 환경에 필요한 특정 구조와 정렬하기 어렵습니다.

#Review #3D Generation #Part-Controllable #Open-Vocabulary #Diffusion Transformer #Schema-driven #Game Asset

2026년 5월 27일

[논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion

본 논문은 현대의 MLLM과 영상 확산 모델(Diffusion Model)이 각각 고도의 추론 능력과 사실적 합성 능력을 갖추고 있음에도 불구하고, 이들을 효과적으로 통합하는 프레임워크가 부족하다는 점에 주목합니다.

#Review #Video Diffusion #Multimodal Large Language Models #Latent Semantic Planning #Diffusion Transformer #Video Editing #Chain-of-Thought

2026년 5월 21일

[논문리뷰] iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

기존의 비디오 가상 피팅(VVT) 연구는 주로 피동적인 피사체나 단순한 움직임만을 다루어, 실제 이커머스 라이브 스트리밍 등에서 발생하는 인간-의류 간의 복잡한 상호작용을 포착하지 못한다는 한계가 있습니다.

#Review #Video Virtual Try-On #Interactive VVT #Diffusion Transformer #3D Hand Prior #Action-aware Semantic Guidance #Action-aware Constraint Loss

2026년 5월 20일

[논문리뷰] OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

본 연구는 로봇 학습을 위한 고품질 데이터 수집의 높은 비용과 확장성 문제를 해결하기 위해, 다양한 humanoid embodiment 간의 cross-embodiment video generation을 수행하고자 합니다.

#Review #Cross-embodiment Video Generation #Diffusion Transformer #Embodiment-specific Adaptation #Streaming Inference #Paired-free Learning

2026년 5월 17일

[논문리뷰] ChangeFlow -- Latent Rectified Flow for Change Detection in Remote Sensing

본 논문은 기존의 RSCD 연구들이 주로 픽셀 단위의 결정론적 분류(discriminative classification)에 의존하고 있어, 지역적 일관성 부족과 모호성 처리에 한계가 있다는 점을 지적합니다.

#Review #Remote Sensing Change Detection #Rectified Flow #Generative Models #Latent Space #Diffusion Transformer #Coherence #Confidence Estimation

2026년 5월 17일

[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.

#Review #World Model #Diffusion Transformer #Long-context Modeling #Camera Control #6-DoF Trajectory #Efficiency #Video Generation

2026년 5월 14일

[논문리뷰] SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

본 논문은 2K 고해상도 I2V 생성에서 발생하는 계산 효율성(Efficiency)과 입력 이미지 충실도(Fidelity) 사이의 심각한 trade-off 문제를 해결하고자 한다.

#Review #Image-to-Video #High-Resolution Generation #Diffusion Transformer #Conditional Segment-wise Generation #Efficiency #Streaming Inference

2026년 5월 7일

[논문리뷰] Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

본 논문은 기존 Unified World Model들이 2D 픽셀 공간에만 국한되어 기하학적 구조에 대한 이해가 부족하며, 고차원 비디오 생성과 저차원 행동 예측 사이의 효율적인 균형을 맞추지 못한다는 문제를 해결하고자 한다.

#Review #Embodied AI #World Models #Diffusion Transformer #3D Reconstruction #Robotic Manipulation #Asynchronous Denoising #Unified Modeling

2026년 4월 29일

[논문리뷰] ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

본 논문은 기존의 고품질 인물 비디오 생성 연구들이 포즈, 외형, 카메라 뷰포인트에 대한 동시 제어 역량이 부족하고, 대규모 고품질 멀티뷰 비디오 데이터의 희소성으로 인해 성능 한계에 직면했다는 문제를 해결하고자 한다.

#Review #Human Video Generation #Image-First Synthesis #Flow Matching #Temporal Consistency #SMPL-X #Diffusion Transformer

2026년 4월 22일

[논문리뷰] CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

본 논문은 사람·물체·텍스트·음성을 입력으로 받는 인간-객체 상호작용(HOI) 비디오 합성에서, 손과 얼굴의 구조적 안정성과 물리적으로 타당한 접촉을 보장하기 위해 Human-Aware MoE와 Spatially-Structured Co-Generation을 결합한 CoInteract을 제안합니다.

#Review #Human-Object Interaction #Diffusion Transformer #Video Synthesis #Mixture of Experts #Physical Consistency #Co-Generation

2026년 4월 21일

[논문리뷰] OneHOI: Unifying Human-Object Interaction Generation and Editing

본 논문은 HOI(Human-Object Interaction)의 생성과 편집이 서로 분리된 연구 흐름으로 발전해 온 비효율성을 해결하기 위해 통합 프레임워크인 OneHOI를 제안합니다.

#Review #Human-Object Interaction #Diffusion Transformer #Image Editing #Unified Framework #Relational Modeling #Spatial Control

2026년 4월 16일

[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다.

#Review #Text-to-Video #Diffusion Transformer #Numerical Alignment #Training-free #Layout-guided Generation

2026년 4월 9일

[논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

본 논문은 기존 스타일 전이 기법들이 self-supervised 훈련 방식의 한계로 인해 스타일과 콘텐츠를 효과적으로 분리하지 못하고, 데이터셋의 품질 및 다양성 부족으로 스타일 전이 성능이 제한되는 문제를 해결하고자 한다.

#Review #MegaStyle #Style Transfer #Data Curation #Diffusion Transformer #Contrastive Learning

2026년 4월 9일

[논문리뷰] LPM 1.0: Video-based Character Performance Model

본 논문은 정체성 인식 다중 참조 추출과 오디오-비디오 페어링이 포함된 고품질 데이터셋을 구축하고, 이를 기반으로 Diffusion Transformer 모델을 학습시켰습니다. 모델은 Base LPM을 통해 정체성을 보존하며, 이를 Online LPM으로 증류하여 낮은 지연 시간 내에 무한한 길이의 스트리밍 영상을 생성합니다.

#Review #Large Performance Model #Full-Duplex #Diffusion Transformer #Identity-Consistent #Real-Time Inference #Streaming Generation #LPM-Bench

2026년 4월 9일

[논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

본 논문은 기존의 비디오 생성 모델들이 장기적인 공간 일관성을 유지하지 못하고 실시간 대화형 내비게이션을 지원하는 데 한계가 있다는 문제점을 해결하고자 합니다.

#Review #World Model #Spatiotemporal Autoregressive #Diffusion Transformer #Camera Control #Distribution Matching Distillation

2026년 4월 8일

[논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

본 논문은 Vanast를 통해 단일 단계에서 고충실도의 애니메이션을 합성하는 end-to-end 시스템을 제안합니다. 핵심 방법론인 Dual Module은 인간 애니메이션 모듈(HAM)과 의류 전송 모듈(GTM)로 나뉘어 사전 학습된 Video DiT 백본을 공유하며, 학습 시에는 이 두 모듈만을 최적화하여 빠른 수렴을 도모합니다 .

#Review #Virtual Try-On #Human Image Animation #Diffusion Transformer #Synthetic Triplet Supervision #Dual Module Architecture #Zero-shot Garment Interpolation

2026년 4월 7일

[논문리뷰] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

본 논문은 Linear Attention 기반 모델을 위한 통합 게이트 조건 주입 모듈인 GateControl을 제안합니다. 이 방식은 학습 가능한 게이트를 통해 토큰별로 중요한 조건 정보만을 선택적으로 보존함으로써, 기존의 Multimodal Attention 없이도 강력한 제어 성능을 달성합니다.

#Review #Diffusion Transformer #Linear Attention #Controllable Generation #Gated Condition Injection #On-device AI

2026년 4월 2일

[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.

#Review #Diffusion Transformer #Multimodal Face Generation #Cross-Modal Fusion #RoPE Attention #Controlled Generation

2026년 3월 31일

[논문리뷰] Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Embodied AI 분야에서 로봇 trajectory를 세계 환경 내에서 roll out하는 능력은 demonstration 확장, policy evaluation 및 reinforcement learning에 매우 중요합니다.

#Review #Embodied AI #4D Generative World Model #Spatiotemporal-aware #Kinematic Control #Robotic Simulation #Diffusion Transformer #Pointmap

2026년 3월 17일

[논문리뷰] V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

논문은 기존 Text-to-Music(T2M) 모델의 한계인 비디오 이벤트와의 정밀한 시간 정렬 제어 부족 문제를 해결하고, V2M-ZERO 라는 Zero-Pair 비디오-투-음악 생성 접근 방식을 제안합니다.

#Review #Video-to-Music Generation #Temporal Alignment #Zero-Pair Learning #Rectified Flow Model #Diffusion Transformer #Event Curves #Modality Gap Mitigation

2026년 3월 11일

[논문리뷰] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

이 논문은 기존의 통합 이미지 편집 모델들이 고정된 공유 백본을 사용함으로써 다중 조건(텍스트, 마스크, 참조 이미지) 입력 시 발생하는 태스크 간섭, 색상 번짐, 정체성/스타일 왜곡 등의 문제를 해결하고자 합니다.

#Review #Image Editing #Diffusion Models #Mixture-of-Experts (MoE)#Condition-Aware Routing #Contextual Image Editing #Mask Repaint #Latent Mixture #Diffusion Transformer

2026년 3월 9일

[논문리뷰] Dynamic Chunking Diffusion Transformer

본 논문은 Diffusion Transformer (DiT)에서 고정된 패치화를 학습된 동적 청킹(dynamic chunking) 메커니즘 으로 대체하여 이미지 생성 품질을 유지하면서 연산 효율성을 극대화 하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Dynamic Chunking #Adaptive Patching #Image Generation #Computational Efficiency #Token Reduction #Spatial Segmentation #Load Balancing

2026년 3월 8일

[논문리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

이 논문은 텍스트, 이미지, 비디오, 마스크, 오디오 참조를 포함한 다양한 입력을 처리하고, 비디오-오디오 생성, 인페인팅 및 편집 기능을 단일 프레임워크 내에서 통합적으로 지원하는 멀티모달 비디오 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Multi-modal Generation #Video-Audio Synthesis #Video Inpainting #Video Editing #Diffusion Transformer #MMLM #Super-resolution #Frame Interpolation

2026년 2월 25일

[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

기존 오픈소스 공동 오디오-비디오 생성(JAVG) 모델들이 생성 품질 , 시간 동기화 , 그리고 인간 선호도 정렬 측면에서 상용 모델(예: Veo3)에 비해 한계를 보이는 문제를 해결하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Diffusion Transformer #Modality-specific Mixture-of-Experts #Temporal-Aligned ROPE #Direct Preference Optimization #Multimodal Generation #Text-to-AV

2026년 2월 25일

[논문리뷰] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

레퍼런스 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V)과 같은 인간 중심 태스크들을 개별적으로 처리하는 기존 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Video Generation #Human-Centric AI #Diffusion Transformer #Multi-Task Learning #Identity Disentanglement #Controllable Generation #Speaker Confusion

2026년 2월 25일

[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report

본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.

#Review #Image Editing #Diffusion Transformer #Instruction-based Editing #Data Curation #Reinforcement Learning #Multimodal Models #REDEdit-Bench #Generative AI

2026년 2월 16일

[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Real-Time Robotics #Diffusion Transformer #Flow Matching #Asynchronous Execution #Robot Manipulation #Pre-training #Catastrophic Forgetting

2026년 2월 15일

[ACE-Step-1.5] Apple Silicon을 위한 네이티브 MLX DiT 백엔드 도입: 2-3배 성능 향상

PyTorch MPS의 오버헤드를 제거하고 Apple Silicon에서 DiT 추론 속도를 2-3배 가속화하는 네이티브 MLX 백엔드 구현.

#Apple Silicon #MLX #Diffusion Transformer #Performance Optimization #PyTorch

2026년 2월 11일

[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation

기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.

#Review #Video-Audio Generation #Diffusion Transformer #Multimodal AI #Lip Synchronization #Open Source #Data Curation #Dual-Tower Architecture #Cross-Attention

2026년 2월 9일

[논문리뷰] Plenoptic Video Generation

본 논문은 기존 카메라 제어형 비디오 재렌더링 방법들이 다중 뷰 시나리오에서 일관된 시공간적 일관성을 유지하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Video #Camera Control #Plenoptic Function #Autoregressive Model #Diffusion Transformer #3D FOV Retrieval #Spatio-Temporal Consistency

2026년 1월 8일

[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model

기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.

#Review #Multimodal AI #Text-to-Audio-Video #Diffusion Transformer #Cross-Modal Attention #Classifier-Free Guidance #Efficient Inference #Foundation Model

2026년 1월 6일

[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context

본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.

#Review #Unified Generation #Multimodal Diffusion #Vision-Language Model #Image Editing #Video Editing #Interleaved Context #Progressive Training #Diffusion Transformer

2026년 1월 5일

[논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

비디오 얼굴 스와핑(VFS)에서 기존 이미지 얼굴 스와핑(IFS) 모델 대비 신원 유사성 및 속성 보존 능력의 격차를 해소하고, 시간적 일관성 문제를 해결하는 것이 주된 목표입니다.

#Review #Video Face Swapping #Diffusion Transformer #Identity Preservation #Temporal Consistency #Modality-Aware Conditioning #Reinforcement Learning #Data Synthesis

2026년 1월 5일

[논문리뷰] SpotEdit: Selective Region Editing in Diffusion Transformers

본 논문은 기존 Diffusion Transformer 기반 이미지 편집 모델들이 변경되지 않은 영역까지 포함하여 전체 이미지를 일관적으로 처리하고 디노이징하는 방식의 비효율성과 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Image Editing #Selective Editing #Computational Efficiency #Training-Free #Region-Aware #Perceptual Similarity

2025년 12월 29일

[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

본 논문은 오디오와 비디오를 통합적으로 생성하는 기반 모델(foundation model) 인 Seedance 1.5 pro를 소개합니다.

#Review #Audio-Visual Generation #Diffusion Transformer #Multimodal AI #Speech Synchronization #Video Generation #Reinforcement Learning from Human Feedback #Inference Acceleration

2025년 12월 18일

[논문리뷰] Kling-Omni Technical Report

논문은 단편적인 비디오 생성, 편집, 추론 태스크들을 통합하여 멀티모달 시각 언어(MVL) 입력 으로부터 고품질 비디오를 직접 합성하는 범용 생성 프레임워크인 Kling-Omni 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Multimodal Visual Language #Generative AI #Video Editing #Reasoning-enhanced Generation #Diffusion Transformer #Multi-modal World Simulators

2025년 12월 18일

[논문리뷰] OmniPSD: Layered PSD Generation with Diffusion Transformer

본 논문은 기존 생성 모델의 한계인 단일 평면 이미지 출력 문제를 해결하고, 투명한 알파 채널을 포함하는 레이어드 PSD 파일 을 생성 및 재구성하는 통합 프레임워크인 OmniPSD 를 제안합니다.

#Review #Diffusion Transformer #PSD Generation #Image Decomposition #RGBA-VAE #In-Context Learning #Text-to-PSD #Image-to-PSD

2025년 12월 10일

[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.

#Review #Robot Manipulation #Video Generation Models #Vision-Language-Action (VLA)#Diffusion Transformer #Generalization #Action Prediction #Visual Imagination

2025년 12월 8일

[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations

기존 캐릭터 애니메이션 방법론이 복잡한 모션, 크로스-아이덴티티 애니메이션, 다중 캐릭터 상호작용 등 스튜디오 수준의 제작 요구 사항을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Character Animation #3D Pose Representation #In-Context Learning #Diffusion Transformer #Studio-Grade Animation #Spatio-Temporal Reasoning #Video Generation

2025년 12월 7일

[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

현재 고성능 이미지 생성 모델들이 겪고 있는 비싼 훈련 및 추론 비용, 그리고 폐쇄형 또는 과도한 파라미터(20B-80B) 문제점을 해결하고자 합니다.

#Review #Diffusion Transformer #Efficient Training #Multi-Modal Learning #Text-to-Image Generation #Image Editing #RLHF #Photorealistic Rendering

2025년 11월 30일

[논문리뷰] Plan-X: Instruct Video Generation via Semantic Planning

기존 비디오 확산 모델(DiT)이 복잡한 사용자 지시 및 장기 계획에서 겪는 높은 수준의 의미론적 추론 및 계획 능력 부족 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Semantic Planning #Multimodal LLM #Diffusion Transformer #Spatio-temporal Guidance #Visual Hallucination #Prompt Alignment #Instruction Following

2025년 11월 24일

[논문리뷰] HunyuanVideo 1.5 Technical Report

경량화되면서도 강력한 오픈소스 비디오 생성 모델 Hunyuan Video 1.5 를 개발하여, 8.3억 파라미터로 최첨단 시각 품질과 움직임 일관성을 달성하고, 소비자용 GPU에서 효율적인 추론을 가능하게 하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformer #Sparse Attention #Super-Resolution #Open-Source #Multimodal Understanding #Training Optimization #Efficient Inference

2025년 11월 24일

[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

본 논문은 고품질의 일관되고 제어 가능한 이미지 및 비디오 생성을 위한 AI/ML 분야의 핵심 과제를 해결하고자 합니다. 특히, 최신 이미지 및 10초 비디오 합성을 위한 Kandinsky 5.0 이라는 최첨단 파운데이션 모델 제품군을 개발하여 최고 수준의 품질과 운영 효율성을 달성하는 것을 목표로 합니다.

#Review #Image Generation #Video Generation #Diffusion Models #Flow Matching #Diffusion Transformer #NABLA #RLHF #Supervised Fine-tuning

2025년 11월 19일

[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

기존 오픈소스 오디오-비디오 생성 모델이 겪는 부정확한 립싱크, 일관성 부족, 모달리티 비동기화 문제를 해결하고자 합니다. 본 연구는 UniAVGen 이라는 통합 프레임워크를 통해 인간 오디오 생성 에 중점을 두어, 정확한 시공간적 동기화 및 의미론적 일관성을 갖춘 오디오-비디오를 공동으로 생성하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Cross-Modal Interaction #Diffusion Transformer #Face-Aware Modulation #Classifier-Free Guidance #Multimodal AI #Generative Models

2025년 11월 9일

[논문리뷰] UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

기존 Large Vision Models (LVMs)이 태스크 및 모달리티별 사전 훈련 데이터에 대한 높은 의존성으로 인해 확장성이 제한되는 문제를 해결하고자 합니다.

#Review #Unified Vision Modeling #Video Generation #Diffusion Transformer #Supervised Fine-tuning #Cross-modal #Cross-source Tasks #Visual Sentences #LoRA

2025년 9월 29일

[논문리뷰] LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

본 논문은 알 수 없는 혼합된 열화가 적용된 실제 저품질(LQ) 이미지에 대해 의미론적 일관성과 지각적 충실도를 유지하면서 범용 이미지 복원(UIR)을 수행하는 것을 목표로 합니다.

#Review #Universal Image Restoration #Diffusion Transformer #Caption-Free #Semantic Alignment #Image Quality Assessment #Data Curation #Real-World Degradations #Deep Learning

2025년 9월 29일

[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation

본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Image Generation #Diffusion Transformer #VAE #Image Editing #Text-to-Image #Model Acceleration #Human Evaluation

2025년 9월 26일

[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation

본 논문은 단일 입력 이미지로부터 고품질의 개인화된 비디오를 합성 하는 모델인 Lynx를 제시하며, 특히 높은 신원 보존 을 목표로 합니다. 기존 비디오 생성 모델의 한계인 대상의 신원 불일치 문제를 해결하고, 시간적 일관성과 시각적 사실성을 유지하는 비디오 생성을 목표로 합니다.

#Review #Personalized Video Generation #Diffusion Transformer #Identity Preservation #Video Synthesis #Adapter Networks #Facial Recognition #Cross-Attention

2025년 9월 22일

[논문리뷰] From Editor to Dense Geometry Estimator

본 논문은 기존의 텍스트-투-이미지(T2I) 생성 모델보다 Diffusion Transformer (DiT) 기반의 이미지 편집 모델이 단안 밀집 기하학 추정(depth 및 normal) 작업에 더 적합한 파운데이션 모델임을 증명하고, 이를 기반으로 FE2E 라는 새로운 프레임워크를 개발하여 제한된 훈련 데이터로도 뛰어난 제로샷 성능을 달성하는 것을 목표로 합니다.

#Review #Dense Geometry Estimation #Diffusion Transformer #Image Editing #Zero-shot Learning #Depth Estimation #Normal Estimation #Flow Matching #Logarithmic Quantization

2025년 9월 5일

[논문리뷰] Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation

논문은 기존 생성 모델이 의미론적 제어와 사진 같은 사실성 사이의 섬세한 균형을 맞추는 데 어려움을 겪고, 특히 Diffusion Transformer (DiT) 가 복잡한 다중 모드 조건부 설정에서 충분히 탐색되지 않았다는 문제를 해결하고자 합니다.

#Review #Diffusion Transformer #Mixture of Experts #Controllable Generation #Face Generation #Multimodal Synthesis #Semantic Control #Image Generation

2025년 9월 4일

[논문리뷰] GenCompositor: Generative Video Compositing with Diffusion Transformer

본 논문은 기존의 수동적이고 노동 집약적인 비디오 합성(Video Compositing) 과정을 생성형 모델 을 사용하여 자동화하는 것을 목표로 합니다.

#Review #Video Compositing #Diffusion Transformer #Generative Models #Video Editing #Position Embedding #Diffusion Models #Masked Token Injection #Video Harmonization

2025년 9월 3일

[논문리뷰] ROSE: Remove Objects with Side Effects in Videos

기존 비디오 객체 제거 모델들이 객체의 그림자, 반사, 조명 변화 등 '측면 효과(side effects)' 를 효과적으로 제거하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Video Object Removal #Side Effects #3D Rendering #Diffusion Transformer #Video Inpainting #Synthetic Data #Difference Mask

2025년 8월 29일

[논문리뷰] Cut2Next: Generating Next Shot via In-Context Tuning

본 논문은 기존 비디오 생성 모델이 간과했던 영화적 내러티브 흐름과 편집 패턴(예: Shot/Reverse Shot , Cut-Out , Cutaway )을 준수하면서, 선행 샷에 영화적으로 일관성 있는 다음 샷을 생성 하는 새로운 태스크인 Next Shot Generation (NSG) 을 제안합니다.

#Review #Next Shot Generation #In-Context Tuning #Diffusion Transformer #Cinematic Continuity #Hierarchical Prompting #Video Generation #Shot Editing

2025년 8월 13일

[논문리뷰] Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

가상 의류 착용(try-on) 및 탈의(try-off) 시 사람의 자세 및 외형 변화에 따른 의류-신체 일치성 모델링과 세부 묘사의 정확성 유지라는 고질적인 문제를 해결하는 것입니다.

#Review #Virtual Try-On #Virtual Try-Off #Diffusion Transformer #Bidirectional Learning #Generative AI #Fashion Synthesis #Attention Mechanism #Self-Correction

2025년 8월 11일

[논문리뷰] LongCat-Video Technical Report

본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.

#Review #Video Generation #Diffusion Transformer #RLHF #Sparse Attention #Long Video Generation #Coarse-to-Fine Generation #Multi-task Learning #World Models

2025년 10월 28일

[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical Attention

기존 Diffusion Transformer 기반 비디오 생성 모델들이 출력 해상도(예: <720P)에 따라 attention 메커니즘의 제곱 복잡도 로 인해 발생하는 높은 연산 비용 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #High-Resolution #Diffusion Transformer #Hierarchical Attention #Global-Local Attention #Computational Efficiency #4K Synthesis

2025년 10월 22일

[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

본 논문은 대규모 비디오 생성 모델 의 훈련에서 발생하는 교차-모달 텍스트-비디오 정렬, 긴 시퀀스, 복잡한 시공간적 종속성 문제를 해결하기 위해 고효율 훈련 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformer #Large-scale Training #Megatron-Core #Video VAE #E-commerce AI #High-efficiency Pipeline #Preference Optimization

2025년 10월 22일

[논문리뷰] ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

본 논문은 기존의 훈련 없이(training-free) 텍스트 기반 시각 편집 방법론이 겪는 한계, 즉 강한 편집 강도를 유지하면서도 원본과의 일관성을 보존하기 어렵다는 문제를 해결하고자 합니다.

#Review #Image Editing #Video Editing #Diffusion Transformer #Attention Control #Training-free #Multi-modal Diffusion Transformer (MM-DiT)#Consistency Preservation

2025년 10월 21일

[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos

기존의 통합 멀티모달 모델들이 이미지 도메인에 주로 한정되어 있고, 비디오 관련 작업은 태스크별 전문 모델에 의존하는 한계를 극복하고자 합니다. 본 연구는 비디오에 대한 통합적인 이해, 생성, 편집 을 단일 프레임워크 내에서 수행할 수 있는 다재다능한 모델을 개발하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Video Generation #Video Editing #MLLM #Diffusion Transformer #In-Context Learning #Zero-shot Generalization #Multimodal AI

2025년 10월 10일

[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

기존 비디오 생성 모델들이 복잡한 공간 관계, 시간적 논리, 다중 주체 상호작용을 포함하는 프롬프트를 처리할 때 주체 일관성을 유지하는 데 어려움을 겪는 문제를 해결하는 것입니다.

#Review #Video Generation #Subject Consistency #Cross-Modal Integration #Diffusion Models #Multimodal LLM #Diffusion Transformer #Text-to-Video

2025년 10월 2일