본문으로 건너뛰기

secrett2633's blog

카테고리

Python

PEP (650)

AI/ML

Review (4880)

OpenSource

PR Analysis (1030)
vLLM (71)
SGLang (130)
llm-compressor (45)

Python

PEP (650)

AI/ML

Review (4880)

OpenSource

PR Analysis (1030)
vLLM (71)
SGLang (130)
llm-compressor (45)

홈
#CUDA 커널

#CUDA 커널

2개의 포스트

[flashinfer] FlashInfer, SM120 GPU를 위한 희소 MLA 커널 추가로 LLM 추론 속도 향상

FlashInfer가 SM120 GPU를 위한 희소 MLA 커널을 도입하여 LLM 추론 성능을 대폭 개선했습니다.

#FlashInfer #LLM #GPU 최적화 #CUDA 커널 #머신러닝

2026년 6월 15일댓글 수 로딩 중

[vllm] vLLM, DeepSeek V4 모델의 저지연을 위한 RMSNorm과 라우터 GEMV 연산 융합으로 성능 극대화

vLLM이 DeepSeek V4 모델에서 RMSNorm과 라우터 GEMV 연산을 융합하여 지연 시간을 단축하고 처리량을 향상시킨 방법을 분석합니다.

#vLLM #DeepSeek V4 #성능 최적화 #CUDA 커널 #LLM 추론

2026년 5월 14일댓글 수 로딩 중

AI Review Python PEP PR Analysis RSS GitHub

© 2026 secrett2633. All rights reserved.