#torch.compile

9개의 포스트

[sglang] SGLang: performance_mode=speed에서 torch.compile 기본 활성화로 성능 최적화

SGLang의 'speed' 모드에서 torch.compile을 기본 활성화하여 성능을 극대화하는 PR 분석.

#SGLang #PyTorch #torch.compile #성능 최적화 #GPU #JIT 컴파일

2026년 7월 3일

[sglang] [성능 최적화] Wan2.2 모델을 위한 최적의 torch.compile 모드 찾기: 왜 'default'가 더 빠를까?

Wan2.2 T2V A14B 모델에서 torch.compile 모드를 'default'로 변경하여 성능을 5% 이상 향상시키고 메모리 사용량을 줄인 사례를 분석합니다.

#PyTorch #torch.compile #SGLang #Performance #DeepLearning #Wan2.2

2026년 6월 16일

[sglang] sglang의 torch.compile 활용: Advanced Indexing Gather 최적화로 LLM 추론 가속화

sglang에서 torch.compile을 사용하여 여러 Tensor gather 연산을 하나로 묶어 GPU 커널 오버헤드를 줄인 최적화 분석.

#PyTorch #torch.compile #GPU Optimization #LLM Inference #Kernel Fusion #sglang

2026년 5월 23일

[sglang] SGLang에서 torch.compile을 활용한 Wan 모델 추론 가속화

torch.compile을 도입하여 MUSA 및 CUDA 환경에서 Wan 모델의 추론 성능을 최대 1.09배 향상시킨 최적화 사례를 분석합니다.

#SGLang #torch.compile #MUSA #CUDA #Optimization

2026년 5월 17일

[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서

sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석

#sglang #diffusion #torch.compile #optimization #performance #AI

2026년 5월 15일

[SGLang] torch.compile & Inductor: PyTorch 컴파일러 통합

SGLang의 torch.compile 통합을 분석한다. PyTorch Inductor를 통한 커널 퓨전, Piecewise 컴파일 전략, 1.5x 성능 향상의 원리를 코드와 함께 살펴본다.

#sglang #torch.compile #Inductor #Kernel Fusion #Compilation

2026년 4월 11일

[vLLM] torch.compile 통합: PyTorch 컴파일러

vLLM이 torch.compile을 어떻게 통합하여 모델 포워드 패스를 최적화하는지, 커스텀 백엔드와 Piecewise 컴파일 전략을 코드 레벨에서 분석한다.

#vllm #torch.compile #compilation #inductor #optimization

2026년 4월 7일

[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선

sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석

#sglang #performance #optimization #torch.compile #fusion #CUDA

2026년 4월 7일

[sglang] SGLang에 Piecewise CUDA Graph 및 Torch Compile 백엔드 도입

SGLang 추론 엔진에 piecewise CUDA graph capture와 torch.compile 백엔드를 통합하여 LLM 서빙 성능을 향상시킨다

#CUDA Graph #torch.compile #LLM Inference #SGLang

2025년 10월 12일