#Diffusion Distillation

4개의 포스트

[논문리뷰] Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

본 논문은 실시간 인터랙티브 비디오 생성을 위해 Frame-wise 수준의 초저지연 1–2 step 생성 체계로 확장이 필요함을 정의합니다 . 기존의 연구들은 주로 Chunk-wise 4-step 방식을 채택하여 실시간성 확보에 한계가 있었으며, 적절한 Few-step AR 학생 모델 초기화가 병목 현상으로 작용합니다.

#Review #Autoregressive Diffusion #Diffusion Distillation #Real-time Video Generation #Causal Consistency Distillation #Few-Step Inference #World Models

2026년 5월 14일

[논문리뷰] OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

최근 LTX-2 와 Veo 3 와 같은 Joint Audio-Visual Diffusion Model들은 탁월한 Generation Quality를 보여주지만, Bidirectional Attention Dependency로 인해 높은 Latency를 겪어 Real-time Application에 적용하기 어렵습니다.

#Review #Streaming Audio-Visual Generation #Diffusion Distillation #Autoregressive Video Synthesis #Multi-modal AI

2026년 3월 15일

[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

통합 멀티모달 모델에서 확산 디노이징과 자기회귀 디코딩의 반복적인 프로세스로 발생하는 상당한 계산 오버헤드 를 해결하는 것이 주 목표입니다. Hyper-Bagel 이라는 통합 가속 프레임워크를 제안하여 멀티모달 이해 및 생성 작업을 동시에 가속화하면서 원본 모델의 고품질 출력을 유지하고자 합니다.

#Review #Multimodal AI #Acceleration Framework #Speculative Decoding #Diffusion Distillation #Unified Models #Text-to-Image Generation #Image Editing #Computational Efficiency

2025년 9월 24일

[논문리뷰] Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

본 논문은 연속 시간 일관성 증류 (sCM) 를 대규모 텍스트-투-이미지 (T2I) 및 텍스트-투-비디오 (T2V) 확산 모델에 적용할 때 발생하는 한계점을 해결하는 것을 목표로 합니다.

#Review #Diffusion Distillation #Consistency Models #Score Regularization #Large-Scale Generative Models #Text-to-Image #Text-to-Video #Model Acceleration #JVP

2025년 10월 10일