#Model Acceleration

11개의 포스트

[논문리뷰] Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

마스크 이미지 생성 모델(MIGMs)의 느린 생성 속도, 특히 양방향 어텐션의 다단계 계산으로 인한 비효율성 문제를 해결하는 것을 목표로 합니다. 기존의 캐싱 기반 가속화 방법론이 가진 낮은 표현력과 샘플링 정보 미고려 문제를 극복하고, 모델 품질 저하를 최소화하면서 MIGMs의 가속화를 달성하고자 합니다.

#Review #Masked Image Generation #Model Acceleration #Latent Dynamics Learning #Feature Prediction #Transformer Efficiency #Image Synthesis

2026년 3월 1일

[논문리뷰] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

확산 모델의 느린 추론 속도를 개선하기 위해 기존 캐싱 방법론이 원시 특징(raw feature) 차이 에만 의존하여 콘텐츠와 노이즈를 혼합하고, 이로 인해 스펙트럼 진화(spectral evolution) 를 간과하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #Model Acceleration #Feature Caching #Spectral Analysis #Generative AI #Image Generation #Video Generation #Latency Reduction

2026년 2월 25일

[논문리뷰] SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

이 논문은 비디오 확산 모델에서 높은 희소성(sparsity)에서도 생성 품질 저하 없이 효율적인 학습 가능한(trainable) 스파스 어텐션 을 구현하는 것을 목표로 합니다.

#Review #Sparse Attention #Diffusion Models #Video Generation #Hybrid Masking #Distillation Fine-Tuning #Model Acceleration #Top-k #Top-p

2026년 2월 19일

[논문리뷰] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

본 논문은 기존 비디오 확산 모델의 높은 추론 비용으로 인한 긴 대기 시간과 GPU 비용 문제를 해결하여, 더욱 빠르고 효율적인 비디오 생성을 가능하게 하는 고속 이미지-투-비디오 (I2V) 확산 프레임워크인 FSVideo 를 개발하는 것을 목표로 합니다.

#Review #Video Diffusion Model #Image-to-Video Generation #Latent Space Compression #Diffusion Transformer (DiT)#Model Acceleration #Layer Memory #Video Upsampling

2026년 2월 2일

[논문리뷰] StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models

Visual Autoregressive (VAR) 모델은 고품질 이미지 생성을 가능하게 하지만, 특히 대규모 스케일 단계에서 상당한 연산 복잡도와 긴 런타임으로 어려움을 겪습니다.

#Review #Visual Autoregressive Models #Image Generation #Model Acceleration #Low-Rank Approximation #Semantic Irrelevance #Stage-Aware Optimization #Text-to-Image Synthesis

2025년 12월 21일

[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

본 논문은 Diffusion Transformer (DiT) 모델, 특히 비디오 생성에서 긴 시퀀스 길이로 인한 어텐션의 2차 시간 복잡도 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Sparse Attention #Linear Attention #Model Acceleration #Video Generation #Attention Mechanisms #Fine-tuning

2025년 9월 30일

[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation

본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Image Generation #Diffusion Transformer #VAE #Image Editing #Text-to-Image #Model Acceleration #Human Evaluation

2025년 9월 26일

[논문리뷰] AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders

본 논문은 대규모 언어 모델(LLM) 추론 속도 향상을 위한 Speculative Decoding (SD) 과정에서 드래프트 모델과 타겟 모델 간의 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Speculative Decoding #Knowledge Distillation #LLM Inference #Model Acceleration #Token Filtering #Draft Model #Acceptance Rate

2025년 10월 24일

[논문리뷰] Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

본 논문은 연속 시간 일관성 증류 (sCM) 를 대규모 텍스트-투-이미지 (T2I) 및 텍스트-투-비디오 (T2V) 확산 모델에 적용할 때 발생하는 한계점을 해결하는 것을 목표로 합니다.

#Review #Diffusion Distillation #Consistency Models #Score Regularization #Large-Scale Generative Models #Text-to-Image #Text-to-Video #Model Acceleration #JVP

2025년 10월 10일

[논문리뷰] On Predictability of Reinforcement Learning Dynamics for Large Language Models

본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 과정에서 발생하는 파라미터 업데이트 동역학 에 대한 이해 부족을 해결하고자 합니다. RL이 LLM의 추론 능력 향상에 어떻게 기여하는지 명확히 밝히고, 이 파라미터 업데이트가 따르는 일관된 패턴을 식별하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Parameter Dynamics #Rank-1 Dominance #Linear Dynamics #SVD #Model Acceleration #Predictability

2025년 10월 2일

[논문리뷰] DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder

본 논문은 기존 비디오 확산 모델의 높은 훈련 및 추론 비용 문제를 해결하여, 고해상도 및 장시간 비디오 생성의 효율성을 대폭 향상시키는 것을 목표로 합니다. 특히, 사전 훈련된 모델의 품질을 유지하면서 깊은 압축 잠재 공간 으로 효율적으로 전환하는 프레임워크를 개발하는 데 중점을 둡니다.

#Review #Video Generation #Diffusion Models #Video Autoencoder #Deep Compression #Model Acceleration #Fine-tuning #Latent Space #Temporal Modeling

2025년 10월 1일