#Inference Acceleration

23개의 포스트

[논문리뷰] Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models

본 논문은 interactive video world model의 장기 생성 시 발생하는 과도한 연산 비용과 추론 지연 문제를 해결하기 위해 Light Interaction을 제안한다.

#Review #Interactive Video World Models #Inference Acceleration #Adaptive Context Management #Denoising Cache Acceleration #3D Sparse Attention #Autoregressive Generation

2026년 5월 31일

[논문리뷰] BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE

본 논문은 표준 MoE 모델의 고정된 Top-K 라우팅 방식이 초래하는 연산 중복 문제를 해결하기 위해 BEAM을 제안한다. 기존의 Top-K 메커니즘은 토큰별 복잡도를 고려하지 않고 모든 토큰에 동일한 수의 Expert를 할당하여 불필요한 연산을 발생시킨다.

#Review #Mixture-of-Experts #Dynamic Routing #Expert Sparsity #Inference Acceleration #Binary Expert Activation Masking #vLLM

2026년 5월 14일

[논문리뷰] Fast Byte Latent Transformer

본 논문은 byte-level language model이 지닌 고질적인 추론 속도 문제를 해결하는 것을 목적으로 한다. 기존의 바이트 단위 모델은 Subword 모델과 달리 입력 길이가 훨씬 길어지기 때문에, Naive한 자기회귀(Autoregressive) 방식으로는 매우 느린 추론 속도를 보인다는 한계가 있다.

#Review #Byte-level Language Model #BLT #Diffusion #Inference Acceleration #Speculative Decoding #Latent Tokenization

2026년 5월 10일

[논문리뷰] MARS: Enabling Autoregressive Models Multi-Token Generation

본 논문은 기존의 AR 모델이 추론 시 토큰을 하나씩 생성함에 따라 발생하는 불필요한 컴퓨팅 자원 낭비 문제를 해결하고자 한다.

#Review #MARS #Autoregressive Model #Multi-Token Generation #Inference Acceleration #Block-Masked Prediction #Instruction-tuned LLM

2026년 4월 8일

[논문리뷰] 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Video Diffusion Transformers (DiTs)는 탁월한 비디오 생성 능력을 보여주지만, 높은 메모리 사용량과 막대한 계산 비용으로 인해 실제 배포에 심각한 제약을 받는다.

#Review #Video Diffusion Transformers #Mixed-Precision Quantization #Inference Acceleration #Temporal Delta Cache #NVFP4 #INT8 #Post-Training Quantization #Memory Reduction

2026년 3월 25일

[논문리뷰] WorldCache: Content-Aware Caching for Accelerated Video World Models

Diffusion Transformers (DiTs) 기반의 비디오 World Model은 물리적으로 일관된 미래 visual state를 예측하는 데 필수적이지만, 순차적인 denoising 과정과 높은 계산 비용의 spatio-temporal attention으로 인해 상당한 계산 비용이 발생합니다.

#Review #Diffusion Transformers #Video World Models #Feature Caching #Inference Acceleration #Content-Aware Caching #Motion-Adaptive Caching #Perception-Constrained Caching #Optimal Feature Approximation

2026년 3월 23일

[논문리뷰] WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

본 연구는 확산 기반 월드 모델의 높은 추론 비용 문제, 특히 대화형 사용 및 장기 롤아웃에 필요한 비용을 해결하는 것을 목표로 합니다. 기존 단일 모달 확산 모델을 위한 캐싱 정책이 다중 모달 토큰의 이질성과 비균일한 시간적 역학으로 인해 월드 모델에 제대로 적용되지 못하는 한계를 극복하고자 합니다.

#Review #World Models #Diffusion Models #Inference Acceleration #Feature Caching #Heterogeneous Tokens #Curvature Prediction #Adaptive Skipping

2026년 3월 8일

[논문리뷰] Kling-MotionControl Technical Report

논문은 드라이빙 비디오와 참조 이미지를 기반으로 사실적이고 제어 가능한 홀리스틱 캐릭터 애니메이션 비디오를 생성 하는 것을 목표로 합니다.

#Review #Character Animation #Video Generation #Diffusion Transformers (DiT)#Motion Control #Identity Preservation #Cross-Identity Transfer #Inference Acceleration #Multi-Granular Motion

2026년 3월 3일

[논문리뷰] SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

확산 모델의 추론 과정을 가속화하는 것이 목표입니다. 특히, 기존의 휴리스틱 기반 캐싱 방법들이 가진 이론적 근거 부족과 정적 캐싱 스케줄의 한계를 극복하고, 모델 출력 품질을 유지하면서 계산 비용을 줄일 수 있는 원칙적인(principled) 민감도 기반 캐싱 프레임워크 를 제안합니다.

#Review #Diffusion Models #Inference Acceleration #Caching #Sensitivity Analysis #Dynamic Caching #Video Generation #Denoising

2026년 3월 1일

[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

본 논문은 Diffusion Transformers (DiTs) 의 높은 계산 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Dynamic Tokenization #Patch Scheduling #Inference Acceleration #Text-to-Image Generation #Text-to-Video Generation #Latent Manifold Analysis #LoRA

2026년 2월 19일

[논문리뷰] LLaDA2.1: Speeding Up Text Diffusion via Token Editing

본 연구는 확산 언어 모델(dLLMs)에서 디코딩 속도와 생성 품질 간의 고질적인 트레이드오프를 극복하고, 병렬 디코딩 시 발생하는 토큰 수준의 불일치를 해결하여 효율적이면서도 고품질의 텍스트 생성을 달성하는 것을 목표로 합니다.

#Review #Text Diffusion #Token Editing #Inference Acceleration #Mask-to-Token #Token-to-Token #Reinforcement Learning #Speedy Mode #Quality Mode

2026년 2월 9일

[논문리뷰] LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

Diffusion Large Language Models (dLLM)은 병렬 추론 잠재력이 높음에도 불구하고, 현재 confidence-driven 디코딩 전략은 1-3 TPF (Tokens Per Forward pass) 에 머물러 실제 병렬성을 충분히 활용하지 못합니다.

#Review #dLLM #Parallel Decoding #Lookahead #Inference Acceleration #Token Filling Order #Branch Parallelism #Diffusion Models

2025년 12월 22일

[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

본 논문은 오디오와 비디오를 통합적으로 생성하는 기반 모델(foundation model) 인 Seedance 1.5 pro를 소개합니다.

#Review #Audio-Visual Generation #Diffusion Transformer #Multimodal AI #Speech Synchronization #Video Generation #Reinforcement Learning from Human Feedback #Inference Acceleration

2025년 12월 18일

[논문리뷰] FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

본 논문은 확산 모델 기반의 기존 장시간 인물 애니메이션 방법론이 겪는 신원(ID) 불일치 및 높은 추론 지연 시간 문제를 해결하고자 합니다. 특히, ID를 보존 하면서 무한 길이의 비디오 를 생성하고, 추론 속도를 최대 6배까지 가속 하는 것을 목표로 합니다.

#Review #Portrait Animation #Diffusion Models #Inference Acceleration #Identity Preservation #Video Generation #Latent Prediction #Sliding Window

2025년 12월 18일

[논문리뷰] DEER: Draft with Diffusion, Verify with Autoregressive Models

본 논문은 autoregressive (AR) 디코딩의 내재된 지연으로 인해 발생하는 LLM 기반 에이전트 및 추론 시스템의 효율성 문제를 해결하고자 합니다. 특히, 기존 AR 기반 드래프터의 단계별 불확실성 누적과 순차적 디코딩으로 인한 제한적인 가속화 문제를 극복하는 것을 목표로 합니다.

#Review #Speculative Decoding #Diffusion LLM #Autoregressive Model #Inference Acceleration #Model Alignment #Code Generation #Block Regeneration

2025년 12월 17일

[논문리뷰] Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 순차적 모방 에서 벗어나 진정한 병렬 추론 능력 을 자기 진화할 수 있도록 하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Parallel Reasoning #Self-Distilled Reinforcement Learning #Policy Optimization #Inference Acceleration #Structured Output #Agentic Reasoning

2025년 12월 8일

[논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video Models

블록-인과(block-causal) 비디오 생성 모델, 특히 1.3B 모델 이 16 FPS , 14B 모델 이 4.5 FPS 에 불과한 느린 추론 속도로 인해 품질-속도 간의 심각한 절충(trade-off) 문제에 직면합니다.

#Review #Video Generation #Diffusion Models #Block-Causal Models #Inference Acceleration #Multi-GPU Parallelism #Training-Free #KV Caching #Interactive AI

2025년 11월 26일

[논문리뷰] OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

옴니모달 대규모 언어 모델(OmniLLMs)이 직면한 오디오-비디오 토큰의 과도한 수 와 주의 메커니즘의 2차 복잡성 으로 인한 계산 및 메모리 병목 현상 을 해결하는 것을 목표로 합니다. 특히, 기존의 단일 모달 압축 방법으로는 멀티모달 토큰의 공동 압축 요구사항을 충족하기 어렵다는 문제를 해결하고자 합니다.

#Review #Omnimodal LLMs #Token Compression #Audio-Video Understanding #Dynamic Pruning #Inference Acceleration #Spatio-Temporal Compression #Large Language Models

2025년 11월 18일

[논문리뷰] Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation

본 논문은 순차적인 토큰별 디코딩 과정으로 인해 수천 번의 모델 포워드 패스를 요구하는 자율회귀 텍스트-투-이미지 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다. 병렬 토큰 디코딩을 통해 자율회귀 텍스트-투-이미지 생성 모델의 추론을 가속화하고자 합니다.

#Review #Autoregressive Models #Text-to-Image Generation #Inference Acceleration #Jacobi Decoding #Denoising Diffusion Models #Speculative Decoding #Multi-token Prediction #Fine-tuning

2025년 10월 13일

[논문리뷰] LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation

본 논문은 확산 모델 기반 비디오 생성 과정에서 발생하는 높은 GPU 메모리 사용량 과 긴 추론 시간 문제를 해결하고자 합니다. 특히 기존 캐싱 기반 가속화 방법이 야기하는 메모리 급증 현상 을 극복하고, 모델 훈련 없이 메모리 효율적인 가속화를 달성하여 실제 환경 배포의 제약을 완화하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #Memory Efficiency #Inference Acceleration #Training-Free #Cache Mechanism #GPU Optimization

2025년 10월 8일

[논문리뷰] Fast-dLLM v2: Efficient Block-Diffusion LLM

본 논문은 Autoregressive (AR) 대규모 언어 모델(LLMs) 의 본질적인 순차적 디코딩으로 인한 추론 비효율성을 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Inference Acceleration #Parallel Decoding #Autoregressive Models #Caching #Fine-tuning #Block-wise Attention

2025년 10월 8일

[논문리뷰] dParallel: Learnable Parallel Decoding for dLLMs

본 연구는 확산 언어 모델(dLLMs)이 가진 병렬 디코딩 잠재력 을 충분히 활용하지 못하는 문제, 즉 기존 dLLMs가 성능 유지를 위해 거의 토큰 길이만큼의 디코딩 스텝을 요구하는 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Parallel Decoding #Inference Acceleration #Certainty Distillation #Self-Distillation #Masked Language Models #LLaDA

2025년 10월 1일

[논문리뷰] d^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching

확산 기반 대규모 언어 모델(dLLM)은 양방향 어텐션 구조 때문에 표준 Key-Value(KV) 캐시 의 이점을 활용하지 못해 추론 효율성이 떨어진다는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Large Language Models (LLMs)#Inference Acceleration #KV Cache #Bidirectional Attention #Adaptive Caching #Token Selection

2025년 10월 1일