[SGLang] ViT CUDA Graph: Vision Encoder 가속SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.#sglang#ViT#CUDA Graph#Vision Encoder#Acceleration2026년 4월 14일댓글 수 로딩 중
[SGLang] Speculative Decoding 개요: 원리와 구현 아키텍처SGLang의 Speculative Decoding 전체 아키텍처를 분석한다. 드래프트-검증 2단계 파이프라인의 원리, 기존 Autoregressive 대비 2-3x 속도 향상, SGLang의 구현 방식을 코드와 함께 살펴본다.#sglang#Speculative Decoding#Draft-Verify#Acceleration2026년 4월 12일댓글 수 로딩 중
[논문리뷰] HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion AccelerationText-to-Image (T2I) Diffusion 모델은 인상적인 이미지 생성 능력을 보여주지만, 수십억 개의 파라미터를 포함하는 대규모 모델의 경우 극심한 계산 오버헤드와 높은 Latency로 인해 latency-sensitive한 애플리케이션에 적용하기 어렵다는 문제에 직면해 있습니다.#Review#Diffusion model#Mixture of models#Acceleration#Text-to-Image#Model stitching#Latency reduction#Pixel-level#Timestep-level2026년 3월 15일댓글 수 로딩 중
[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.#Review#Video Generation#Diffusion Models#Acceleration#Quantization#Attention#Step Distillation#Performance Optimization#RTX 50902025년 12월 24일댓글 수 로딩 중
[논문리뷰] Glance: Accelerating Diffusion Models with 1 Sample본 논문은 이미지 생성 확산 모델의 높은 계산 비용과 많은 추론 단계를 해결하고자 합니다. 특히, 모델의 재훈련 비용과 일반화 성능 저하 없이, 단일 샘플만으로도 효율적인 가속화와 강력한 일반화 능력을 갖춘 경량화된 솔루션을 제공하는 것을 목표로 합니다.#Review#Diffusion Models#Acceleration#Distillation#LoRA#Few-shot Learning#Phase-aware#Image Generation#Computational Efficiency2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration본 논문은 3D Diffusion 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다.#Review#3D Geometry Synthesis#Diffusion Models#Acceleration#Caching#Training-free#Flow Matching#Voxel Stabilization#Computational Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Set Block Decoding is a Language Model Inference Accelerator본 논문은 대규모 언어 모델(LLM) 추론, 특히 디코딩 단계에서 발생하는 높은 계산 및 메모리 비용 문제에 초점을 맞춥니다.#Review#Language Model Inference#Acceleration#Set Block Decoding#Next Token Prediction#Masked Token Prediction#Parallel Decoding#KV-caching#Diffusion Models2025년 9월 8일댓글 수 로딩 중
[논문리뷰] DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern본 논문은 확산형 대규모 언어 모델(dLLM)을 이용한 단위 테스트 생성(UTG) 과정에서 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion LLMs#Unit Test Generation#Acceleration#Repetitive Patterns#Abstract Syntax Tree#Software Testing#Code Generation2025년 10월 6일댓글 수 로딩 중