[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석#sglang#diffusion#torch.compile#optimization#performance#AI2026년 5월 15일댓글 수 로딩 중
[transformers] Hugging Face Transformers: MoE 및 FP8 커널 최적화를 통한 성능 향상Hugging Face Transformers 라이브러리의 MoE 및 FP8 커널 최적화를 통해 성능을 개선하고 안정성을 높인 PR 분석#transformers#optimization#MoE#FP8#performance#kernel2026년 5월 4일댓글 수 로딩 중
[sglang] LTX2.3 HQ Denoising 성능 최적화: Attention Skip을 활용한 효율적인 모델 호출LTX2.3 HQ 가이드 Denoising 과정에서 불필요한 Attention 계산을 건너뛰어 성능을 개선했습니다.#sglang#optimization#performance#deep learning#denoising#attention2026년 5월 3일댓글 수 로딩 중
[cpython] Python subprocess.communicate() 타임아웃 성능 개선: 느린 자식 프로세스 응답 방식 변경subprocess.communicate()의 타임아웃 테스트에서 발생하는 긴 지연 시간을 해결하여 테스트 속도를 크게 향상시킵니다.#python#subprocess#performance#testing#optimization2026년 4월 26일댓글 수 로딩 중
[cpython] Python `subprocess` 테스트 최적화: `communicate()` 타임아웃 테스트 속도 향상`subprocess.communicate()` 타임아웃 테스트의 런타임을 30초에서 1초 미만으로 단축하는 최적화 분석.#Python#subprocess#testing#optimization#performance#socket2026년 4월 26일댓글 수 로딩 중
[vLLM] Compilation Fusion Passes: 컴파일 퓨전 최적화vLLM의 torch.compile 기반 커널 퓨전 패스를 분석한다. RMSNorm+Quantization 퓨전, 패턴 매칭 기반 최적화의 구현을 살펴본다.#vllm#compilation#fusion#torch-compile#optimization2026년 4월 8일댓글 수 로딩 중
[vLLM] CUDA Graphs: 커널 런칭 오버헤드 제거vLLM이 CUDA Graph를 활용하여 디코드 단계의 커널 런칭 오버헤드를 제거하는 방법을 CUDAGraphWrapper와 GPUModelRunner 코드 레벨에서 분석한다.#vllm#CUDA graphs#optimization#GPU#kernel launch2026년 4월 7일댓글 수 로딩 중
[vLLM] torch.compile 통합: PyTorch 컴파일러vLLM이 torch.compile을 어떻게 통합하여 모델 포워드 패스를 최적화하는지, 커스텀 백엔드와 Piecewise 컴파일 전략을 코드 레벨에서 분석한다.#vllm#torch.compile#compilation#inductor#optimization2026년 4월 7일댓글 수 로딩 중
[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석#sglang#performance#optimization#torch.compile#fusion#CUDA2026년 4월 7일댓글 수 로딩 중