본문으로 건너뛰기

secrett2633's blog

카테고리

Python

PEP (650)

AI/ML

Review (4995)

OpenSource

PR Analysis (1066)
vLLM (71)
SGLang (130)
llm-compressor (45)

Python

PEP (650)

AI/ML

Review (4995)

OpenSource

PR Analysis (1066)
vLLM (71)
SGLang (130)
llm-compressor (45)

홈
#H200

#H200

2개의 포스트

[sglang] SGLang에서 Qwen3-Next FP8 MoE 최적화: H200을 위한 Shared-Expert Fusion

H200 환경에서 Qwen3-Next FP8 MoE 모델의 성능을 극대화하기 위한 Shared-Expert Fusion 및 Triton 커널 최적화 분석.

#SGLang #LLM #MoE #FP8 #Triton #H200

2026년 6월 11일댓글 수 로딩 중

[sglang] SGLang의 add_constant 커널 최적화: 아키텍처 인지 벡터화(Vectorization) 도입

대규모 텐서 연산 시 벡터화된 커널을 사용하여 add_constant 성능을 최대 35% 향상시키는 최적화 기법을 분석합니다.

#SGLang #CUDA #KernelOptimization #Vectorization #H200

2026년 5월 30일댓글 수 로딩 중

AI Review Python PEP PR Analysis RSS GitHub

© 2026 secrett2633. All rights reserved.