#optimization

9개의 포스트

[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서

sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석

#sglang #diffusion #torch.compile #optimization #performance #AI

2026년 5월 15일

[transformers] Hugging Face Transformers: MoE 및 FP8 커널 최적화를 통한 성능 향상

Hugging Face Transformers 라이브러리의 MoE 및 FP8 커널 최적화를 통해 성능을 개선하고 안정성을 높인 PR 분석

#transformers #optimization #MoE #FP8 #performance #kernel

2026년 5월 4일

[sglang] LTX2.3 HQ Denoising 성능 최적화: Attention Skip을 활용한 효율적인 모델 호출

LTX2.3 HQ 가이드 Denoising 과정에서 불필요한 Attention 계산을 건너뛰어 성능을 개선했습니다.

#sglang #optimization #performance #deep learning #denoising #attention

2026년 5월 3일

[cpython] Python subprocess.communicate() 타임아웃 성능 개선: 느린 자식 프로세스 응답 방식 변경

subprocess.communicate()의 타임아웃 테스트에서 발생하는 긴 지연 시간을 해결하여 테스트 속도를 크게 향상시킵니다.

#python #subprocess #performance #testing #optimization

2026년 4월 26일

[cpython] Python `subprocess` 테스트 최적화: `communicate()` 타임아웃 테스트 속도 향상

`subprocess.communicate()` 타임아웃 테스트의 런타임을 30초에서 1초 미만으로 단축하는 최적화 분석.

#Python #subprocess #testing #optimization #performance #socket

2026년 4월 26일

[vLLM] Compilation Fusion Passes: 컴파일 퓨전 최적화

vLLM의 torch.compile 기반 커널 퓨전 패스를 분석한다. RMSNorm+Quantization 퓨전, 패턴 매칭 기반 최적화의 구현을 살펴본다.

#vllm #compilation #fusion #torch-compile #optimization

2026년 4월 8일

[vLLM] CUDA Graphs: 커널 런칭 오버헤드 제거

vLLM이 CUDA Graph를 활용하여 디코드 단계의 커널 런칭 오버헤드를 제거하는 방법을 CUDAGraphWrapper와 GPUModelRunner 코드 레벨에서 분석한다.

#vllm #CUDA graphs #optimization #GPU #kernel launch

2026년 4월 7일

[vLLM] torch.compile 통합: PyTorch 컴파일러

vLLM이 torch.compile을 어떻게 통합하여 모델 포워드 패스를 최적화하는지, 커스텀 백엔드와 Piecewise 컴파일 전략을 코드 레벨에서 분석한다.

#vllm #torch.compile #compilation #inductor #optimization

2026년 4월 7일

[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선

sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석

#sglang #performance #optimization #torch.compile #fusion #CUDA

2026년 4월 7일