#CUDA Graph

10개의 포스트

[vllm] vLLM의 Dynamic Speculative Decoding을 위한 Full CUDA Graph 최적화

Dynamic Speculative Decoding(DSD)에서 MRv2와 Full CUDA Graph를 결합하여 추론 성능을 극대화하는 최적화 기법을 소개합니다.

#vLLM #CUDA Graph #Speculative Decoding #LLM #Performance Optimization

2026년 7월 4일

[vllm] vLLM에서 Lfm2VL 모델을 위한 Encoder CUDA Graph 최적화 적용

Lfm2VL 모델에 Encoder CUDA Graph를 도입하여 낮은 배치 사이즈에서 추론 지연 시간을 10-20% 개선했습니다.

#vLLM #CUDA Graph #LLM #Optimization #Performance

2026년 6월 12일

[onnxruntime] ONNX Runtime CUDA Graph: 진정한 비동기 추론을 위한 동기화 지점 제거

CUDA Graph Replay 시 강제되던 동기화 지점을 제거하여, IO Binding과 함께 완전한 비동기 GPU 추론 파이프라인을 구축하는 최적화 기법을 소개합니다.

#ONNX Runtime #CUDA #Performance Optimization #Async Inference #CUDA Graph

2026년 6월 2일

[vllm] vLLM의 혁신: Breakable CUDA Graph로 LLM 추론 성능 최적화

vLLM이 Breakable CUDA Graph를 도입하여 LLM 추론 성능을 향상시킨 PR 분석.

#vLLM #CUDA Graph #Optimization #LLM Inference #Deep Learning

2026년 5월 16일

[sglang] SGLang의 Breakable CUDA Graph 최적화: 배치 사이즈 제한 극복하기

SGLang에서 CUDA Graph의 배치 사이즈 제약을 해결하고, 유연한 추론을 가능하게 하는 아키텍처 개선 분석.

#SGLang #CUDA Graph #LLM #Inference Optimization #PyTorch

2026년 5월 11일

[vllm] vLLM, Qwen3-VL 비디오 추론을 위한 CUDA Graph 최적화: 성능 향상의 비결

vLLM이 Qwen3-VL 모델의 비디오 추론 성능을 CUDA Graph를 통해 획기적으로 개선한 방법을 분석합니다.

#vLLM #CUDA Graph #Qwen3-VL #최적화 #성능 향상 #LLM

2026년 4월 14일

[SGLang] ViT CUDA Graph: Vision Encoder 가속

SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.

#sglang #ViT #CUDA Graph #Vision Encoder #Acceleration

2026년 4월 14일

[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존

SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.

#SGLang #CUDA Graph #Sliding Window Attention #성능 최적화 #LLM 추론

2026년 3월 31일

[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석

Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.

#SGLang #Whisper #CUDA Graph #Performance Optimization #LLM

2026년 3월 28일

[sglang] SGLang에 Piecewise CUDA Graph 및 Torch Compile 백엔드 도입

SGLang 추론 엔진에 piecewise CUDA graph capture와 torch.compile 백엔드를 통합하여 LLM 서빙 성능을 향상시킨다

#CUDA Graph #torch.compile #LLM Inference #SGLang

2025년 10월 12일