#Acceleration

8개의 포스트

[SGLang] ViT CUDA Graph: Vision Encoder 가속

SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.

#sglang #ViT #CUDA Graph #Vision Encoder #Acceleration

2026년 4월 14일

[SGLang] Speculative Decoding 개요: 원리와 구현 아키텍처

SGLang의 Speculative Decoding 전체 아키텍처를 분석한다. 드래프트-검증 2단계 파이프라인의 원리, 기존 Autoregressive 대비 2-3x 속도 향상, SGLang의 구현 방식을 코드와 함께 살펴본다.

#sglang #Speculative Decoding #Draft-Verify #Acceleration

2026년 4월 12일

[논문리뷰] HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

arXiv에 게시된 'HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion model #Mixture of models #Acceleration #Text-to-Image #Model stitching #Latency reduction #Pixel-level #Timestep-level

2026년 3월 15일

[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

arXiv에 게시된 'TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times' 논문에 대한 자세한 리뷰입니다.

#Review #Video Generation #Diffusion Models #Acceleration #Quantization #Attention #Step Distillation #Performance Optimization #RTX 5090

2025년 12월 24일

[논문리뷰] Glance: Accelerating Diffusion Models with 1 Sample

Linjie Li이 arXiv에 게시한 'Glance: Accelerating Diffusion Models with 1 Sample' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion Models #Acceleration #Distillation #LoRA #Few-shot Learning #Phase-aware #Image Generation #Computational Efficiency

2025년 12월 2일

[논문리뷰] Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration

arXiv에 게시된 'Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration' 논문에 대한 자세한 리뷰입니다.

#Review #3D Geometry Synthesis #Diffusion Models #Acceleration #Caching #Training-free #Flow Matching #Voxel Stabilization #Computational Efficiency

2025년 11월 30일

[논문리뷰] DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern

Jia Li이 arXiv에 게시한 'DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion LLMs #Unit Test Generation #Acceleration #Repetitive Patterns #Abstract Syntax Tree #Software Testing #Code Generation

2025년 10월 6일

[논문리뷰] Set Block Decoding is a Language Model Inference Accelerator

Jeremy Reizenstein이 arXiv에 게시한 'Set Block Decoding is a Language Model Inference Accelerator' 논문에 대한 자세한 리뷰입니다.

#Review #Language Model Inference #Acceleration #Set Block Decoding #Next Token Prediction #Masked Token Prediction #Parallel Decoding #KV-caching #Diffusion Models

2025년 9월 8일