[논문리뷰] Normalizing Trajectory Models
링크: 논문 PDF로 바로 열기
메타데이터
저자: Jiatao Gu, Tianrong Chen, Ying Shen, David Berthelot, Shuangfei Zhai, Josh Susskind, et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- Normalizing Trajectory Models (NTM): reverse conditional 분포 $p(\boldsymbol{x}_s \mid \boldsymbol{x}_t)$를 가역적인 트랜스포터(transporter)와 가우시안 예측기(predictor)를 결합한 normalizing flow로 모델링하는 생성 프레임워크입니다.
- Transporter ($f_{\mathcal{T}}$): $\boldsymbol{x}_s$와 $\boldsymbol{x}_t$를 u-space로 매핑하는 가역적(invertible), 동일 차원의 변환기로, 비가우시안(non-Gaussian) 성질을 모델링하기 위해 사용됩니다.
- Predictor ($f_{\mathcal{P}}$): u-space에서 가우시안 커플링을 통해 $\boldsymbol{u}_t$로부터 $\boldsymbol{u}_s$를 예측하며, trajectory 전반에 걸친 의존성을 효율적으로 학습합니다.
- Exact Likelihood: 가역적인 트랜스포터와 변수 변환(change-of-variables) 공식을 사용하여 생성 궤적에 대한 정확한 로그-우도를 최적화하는 특성을 의미합니다.
- Trajectory Score Denoising: 모델의 정확한 궤적 우도와 마르코프 상관관계를 이용하여, 생성된 궤적을 공동으로(jointly) 보정하는 방식입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존 diffusion 및 flow matching 모델이 few-step generation 과정에서 겪는 가우시안(Gaussian) 근사의 한계를 해결하고자 합니다. 기존 모델들은 생성 과정을 다수의 미세한 가우시안 단계로 분해하지만, 효율성을 위해 단계 수를 줄이면 실제 reverse conditional 분포는 다중 모드(multimodal)나 무거운 꼬리(heavy-tailed)를 가진 복잡한 형태가 되어 단일 가우시안 가정은 더 이상 유효하지 않게 됩니다. 기존의 증류(distillation)나 일관성 학습(consistency training) 방법들은 추론 속도를 개선하지만, 생성 궤적에 대한 추적 가능한 밀도(tractable density)를 상실한다는 치명적인 단점이 있습니다. 이를 극복하기 위해 저자들은 few-step 환경에서도 정확한 우도 기반 학습이 가능한 새로운 프레임워크를 제안합니다 [Figure 2].

Figure 2 — 가우시안 근사 한계 및 NTM 궤적
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 각 denoising 단계를 normalizing flow로 모델링하여 표현력을 높이고 exact likelihood를 확보하는 NTM을 제안합니다 [Figure 3]. NTM은 공유된 트랜스포터가 입력 데이터를 latent 공간(u-space)으로 매핑하면, 예측기가 이 공간에서 가우시안 예측을 수행하여 비가우시안 역조건부 분포를 완벽히 포착합니다 [Figure 3]. 특히, 사전 학습된 flow matching 모델에서 트랜스포터를 항등(identity)으로 초기화하고 residual 스케일 교정을 추가하는 finetuning 기법을 통해, 기존의 높은 품질을 유지하면서 4단계만의 샘플링으로 변환이 가능합니다 [Figure 4]. 실험 결과, NTM은 256×256 해상도에서 4단계 샘플링만으로 GenEval 기준 0.82를 기록하여, 256단계가 필요한 기존 normalizing flow 모델인 STARFlow(0.56)를 크게 상회하였습니다 [Table 1]. 또한, finetuned 모델은 512×512 해상도에서 DPG-Bench 기준 83.38을 달성하며 강력한 diffusion baseline과 대등한 성능을 보입니다 [Table 1]. 마지막으로, 훈련된 denoiser를 사용하면 궤적 점수 노이즈 제거(trajectory score denoising)를 단일 forward pass로 수행하여, 기존 방식 대비 ~9배의 추론 속도 향상을 이끌어냅니다 [Table 2].
4. Conclusion & Impact (결론 및 시사점)
NTM은 각 역조건부 분포를 normalizing flow로 재구성함으로써, 생성 궤적 전반에 걸쳐 정확한 우도를 보존하면서도 few-step에서 탁월한 생성 품질을 달성합니다. 이 프레임워크는 기존의 표현 학습 방법론과 생성 모델을 효과적으로 연결하며, 사전 학습된 강력한 모델들을 몇 단계 샘플링으로 변환하는 유연한 finetuning recipe를 제공합니다. NTM의 등장은 효율적인 실시간 이미지 생성뿐만 아니라, 우도 기반의 안정적인 학습이 필요한 생성 모델 설계의 새로운 지평을 열 것으로 기대됩니다. 향후 연구에서는 더 높은 해상도로의 확장과 더 적은 단계로의 수렴을 위한 아키텍처 개선이 예상됩니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] The Principles of Diffusion Models
- [논문리뷰] Lance: Unified Multimodal Modeling by Multi-Task Synergy
- [논문리뷰] KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration
- [논문리뷰] PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution
- [논문리뷰] DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
Review 의 다른글
- 이전글 [논문리뷰] Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers
- 현재글 : [논문리뷰] Normalizing Trajectory Models
- 다음글 [논문리뷰] R^3-SQL: Ranking Reward and Resampling for Text-to-SQL
댓글