[논문리뷰] Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation
링크: 논문 PDF로 바로 열기
메타데이터
저자: Ziyue Lin, Jiahe Hou, Hongyu Xia, Xinrui Xie, Feifei Wang, Yuyin Zhou, Wei Wang, Jiawei Liu, Liangqiong Qu, et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- DRDD (Decoupled Residual Denoising Diffusion models): 기존의 단일 통합 확산 과정을 stochastic noise diffusion과 deterministic residual diffusion이라는 두 개의 순차적 단계로 분리하여 수행하는 제안 모델입니다.
- Domain Harmonization: Gaussian noise 주입이 서로 다른 도메인 간의 feature distribution 분포 차이를 줄여 도메인 간 격차를 완화하는 현상입니다.
- Residual Diffusion: 대상 도메인과 소스 도메인 간의 차이인 residual을 학습하여 변환을 수행하는 결정론적 과정입니다.
- Manifold Lifting: 데이터가 존재하는 저차원 매니폴드 외부로 데이터를 투영하여 학습 신호를 풍부하게 만드는 확산 모델의 핵심 기법입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존 coupled diffusion models가 unified I2I translation 과제에서 겪는 성능 한계를 해결하고자 합니다. 기존 방식은 noise removal과 residual removal을 단일 과정에서 동시에 수행하므로, 확산 과정 중 조기에 domain harmonization 효과가 소실되는 문제가 있습니다 [Figure 1]. 또한, 대규모의 paired data 확보가 어려운 현실적인 제약으로 인해 복잡하고 다양한 도메인을 통합적으로 학습하는 데 큰 어려움을 겪습니다. 저자들은 노이즈 주입이 가지는 도메인 정렬 효과를 온전히 보존하면서도 데이터 효율성을 극대화할 수 있는 새로운 확산 패러다임의 필요성을 제시합니다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 확산 과정을 노이즈 주입 단계와 잔차 제거 단계로 완전히 분리하는 DRDD를 제안합니다 [Figure 2]. 첫 번째 단계인 stochastic noise diffusion은 타겟 이미지에 노이즈를 주입하여 도메인 간의 격차를 줄이는 domain harmonization과 manifold lifting을 수행합니다. 이어지는 deterministic residual diffusion은 고정된 노이즈 도메인 내에서 효율적으로 목표 매핑을 학습합니다. 추론 시에는 이 과정을 역순으로 수행하여 노이즈가 제거되기 전에 핵심적인 source-to-target mapping을 먼저 완료함으로써 성능을 극대화합니다. 특히, denoising stage는 unpaired target-domain 데이터만으로 학습 가능하여 데이터 효율성이 대폭 향상됩니다. 실험 결과, All-in-One-5 벤치마크에서 기존 모델 대비 SSIM, LPIPS, FID 등 주요 지표에서 우수한 성능을 입증하였습니다 [Table 1]. 제안 기법은 DDPM, DDIM, SDE-based 모델 등 다양한 확산 프레임워크와 높은 호환성을 보입니다.
4. Conclusion & Impact (결론 및 시사점)
본 연구는 확산 모델의 노이즈 주입이 가지는 새로운 도메인 조화 기능을 규명하고, 이를 활용한 DRDD 프레임워크를 성공적으로 제안하였습니다. 확산 과정을 체계적으로 분리함으로써 기존의 결합된 방식보다 데이터 효율적이고 성능이 강건한 I2I translation 구현이 가능함을 보였습니다. 이 연구는 학계에 diffusion paradigm의 해석적 틀을 제공하며, 특히 제한된 데이터 환경에서 고품질의 통합 영상 변환 기술을 필요로 하는 의료 영상, 스타일 변환 등 산업적 응용 분야에 큰 기여를 할 것으로 기대됩니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
- [논문리뷰] AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement
- [논문리뷰] VideoMDM: Towards 3D Human Motion Generation From 2D Supervision
- [논문리뷰] MaskAlign: Token-Subset Representation Alignment for Efficient Diffusion Training
- [논문리뷰] High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation
Review 의 다른글
- 이전글 [논문리뷰] Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging
- 현재글 : [논문리뷰] Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation
- 다음글 [논문리뷰] Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces
댓글