[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.#SGLang#ROCm#Kernel Fusion#LLM#Performance Optimization2026년 4월 1일댓글 수 로딩 중
[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결#SGLang#AMD#ROCm#MoE#GEMM2026년 3월 31일댓글 수 로딩 중
[sglang] AMD/ROCm 시작 크래시 수정: CuteDSL KDA 커널 Lazy Import 적용SGLang에서 CuteDSL KDA 커널의 top-level import가 AMD/ROCm 환경에서 시작 시 크래시를 유발하는 문제를 lazy import로 수정한 분석.#SGLang#AMD#ROCm#Bug Fix#Lazy Import#Linear Attention2026년 3월 25일댓글 수 로딩 중
[pytorch] CI: fbgemm/torchrec 핀 버전 업데이트 및 빌드 로직 리팩토링PyTorch CI에서 fbgemm과 torchrec의 핀 버전을 업데이트하고, fbgemm 빌드 로직을 install_fbgemm 함수로 분리하여 CUDA/ROCm 양쪽에서 재사용 가능하게 리팩토링한 사례를 분석합니다.#PyTorch#CI#fbgemm#torchrec#ROCm#Build System#Refactoring2026년 1월 11일댓글 수 로딩 중