본문으로 건너뛰기

[논문리뷰] Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

링크: 논문 PDF로 바로 열기

저자: Wenhao Sun, Ji Li, Zhaoqiang Liu

핵심 연구 목표

Diffusion Transformers(DiT)의 높은 계산 비용, 특히 공간적 중복성으로 인한 실용적 배포의 어려움을 해결하는 것이 주요 목표입니다. 기존 시간 도메인 가속화 방법이 간과했던 공간 도메인의 비효율성을 해소하고, 모델 재학습 없이 동적인 공간 가속화를 통해 추론 지연 시간을 크게 줄이면서도 생성 품질을 유지하고자 합니다.

핵심 방법론

본 논문은 Just-in-Time (JiT) 이라는 새로운 학습-프리(training-free) 프레임워크를 제안합니다. 이 프레임워크는 Spatially Approximated Generative ODE (SAG-ODE) 를 통해 희소한 앵커 토큰(anchor tokens) 계산만으로 전체 잠재 상태(latent state) 진화를 이끌며 동적으로 계산 부하를 줄입니다. 또한, Deterministic Micro-Flow (DMF) 를 도입하여 새로운 토큰이 통합될 때 구조적 일관성과 통계적 정확성을 유지하며 아티팩트(artifacts) 없는 전환을 보장합니다.

주요 결과

JiT는 최첨단 FLUX.1-dev 모델 에 적용되어 최대 7배의 추론 속도 향상 을 달성했으며, 동시에 거의 손실 없는(nearly lossless) 이미지 생성 품질 을 유지했습니다. CLIP-IQA, ImageReward, HPSv2.1 등 다양한 정량적 평가 지표에서 기존 가속화 방법들을 능가하는 성능을 보였으며, 사용자 연구에서도 높은 선호도를 얻어 inference speed와 generation fidelity 간의 우수한 균형점을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 Diffusion Transformers의 실용적인 배포 가능성 을 크게 향상시킵니다. 학습이 필요 없는(training-free) 특성 덕분에 기존 DiT 모델에 쉽게 통합할 수 있으며, 동적으로 계산 리소스를 할당하는 방식은 복잡하고 고해상도의 생성 작업을 훨씬 효율적으로 처리할 수 있게 합니다. 이는 실시간 애플리케이션이나 제한된 하드웨어 환경에서 고품질 AI 생성 모델을 활용하는 데 중요한 기여를 할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글