[논문리뷰] MMDiff: Extending Diffusion Transformers for Multi-Modal Generation본 논문은 Frozen Diffusion Transformer 백본으로부터 Dense한 Perceptual 정보(Semantic segmentation, depth, saliency 등)를 효과적으로 추출하여 Multi-modal 생성 시스템으로 확장하는 것을 목표로 합니다.#Review#Diffusion Transformer#Multi-Modal Generation#Multi-Timestep Feature Fusion#Concept-Driven Attention#Synthetic Data Generation#Frozen Backbone2026년 6월 15일댓글 수 로딩 중