#ROCm

31개의 포스트

[sglang] SGLang: ROCm 환경에서 RMSNorm의 배치 불변성 확보를 통한 결정론적 추론 개선

SGLang이 ROCm 환경에서 RMSNorm의 배치 불변성 문제를 해결하여 결정론적 추론을 가능하게 한 PR 분석.

#SGLang #ROCm #RMSNorm #Batch Invariance #Deterministic Inference #LLM Optimization

2026년 7월 5일

[vllm] vLLM ROCM 최적화: GLM-4 MoE를 위한 Fused Shared Expert(FSE) 도입

GLM-4 MoE 모델의 공유 전문가(Shared Expert)를 FusedMoE 커널로 통합하여 추론 성능을 최대 22% 향상시켰습니다.

#vLLM #ROCm #MoE #Performance #Optimization

2026년 6월 28일

[vllm] vLLM ROCm 환경에서 FlyDSL을 활용한 MXFP8 MoE 성능 최적화

ROCm gfx950 환경에서 FlyDSL 기반 MXFP8 MoE 커널을 통합하여 추론 성능을 최대 20% 향상하고 백엔드 선택 로직을 개선했습니다.

#vLLM #ROCm #MoE #MXFP8 #Performance #FlyDSL

2026년 6월 27일

[vllm] vLLM, DeepSeek V4 모델 성능 최적화: AITER MXFP4 BF16 백엔드 개선

vLLM에서 DeepSeek V4 모델의 성능을 향상시키기 위한 AITER MXFP4 BF16 백엔드 최적화 분석

#vLLM #DeepSeekV4 #LLM #Performance #Optimization #ROCm #AITER #MXFP4

2026년 6월 26일

[vllm] vLLM ROCm 환경에서 Shared-Expert Fusion을 통한 MoE 추론 성능 최적화

MiniMax-M3 모델의 공유 전문가(Shared-expert)를 라우팅된 그룹 GEMM에 통합하여 추론 지연 시간을 최대 30% 개선했습니다.

#vLLM #ROCm #MoE #Performance #Optimization

2026년 6월 26일

[sglang] ROCm 아키텍처별 최적화: 런타임 디스패치로 성능 극대화

ROCm 커널의 멀티 아키텍처 지원 강화 및 런타임 최적화를 통해 성능을 향상시킨 PR 분석

#ROCm #GPU 최적화 #커널 프로그래밍 #FP8 #TopK #성능 향상

2026년 6월 11일

[sglang] AMD MI300에서의 GPT-OSS 120B 추론 성능 최적화: 새로운 KV 캐시 레이아웃과 커널 통합

AMD GPU에서 GPT-OSS 120B 모델의 추론 속도를 15% 이상 향상시키는 최적화 방안을 분석합니다.

#AMD #ROCm #SGLang #GPT-OSS #성능 최적화 #KV Cache #Attention Kernel

2026년 6월 8일

[vllm] [ROCm CI 최적화] Docker 3단계 빌드 전략으로 빌드 시간 26분 단축하기

vLLM 프로젝트의 ROCm CI 빌드 시간을 획기적으로 단축하기 위해 도입된 3단계 Docker 빌드 아키텍처와 Content-addressed 캐싱 기법을 심층 분석합니다.

#vLLM #ROCm #Docker #CI/CD #Buildkite #Optimization

2026년 6월 3일

[vllm] vLLM, DeepSeek-V3.2 모델의 ROCm 성능 최적화: CPU 측 마이크로 최적화 3가지 분석

vLLM의 DeepSeek-V3.2 모델에서 ROCm 환경의 CPU 측 코드 최적화를 통해 성능을 개선한 PR을 분석합니다.

#vLLM #ROCm #DeepSeek-V3.2 #성능 최적화 #기술 블로그

2026년 5월 29일

[sglang] sglang ROCm MXFP4 어텐션에서 불필요한 contiguous copy 제거를 통한 성능 최적화

ROCm 환경의 MXFP4 디코딩 경로에서 발생하는 불필요한 메모리 복사를 제거하여 성능을 개선한 PR 분석입니다.

#sglang #ROCm #MXFP4 #Attention #Optimization #Performance #Deepseek

2026년 5월 29일

[vllm] AMD RDNA3 (gfx1100)를 위한 vLLM의 W4A16 GPTQ 커널 최적화 심층 분석

AMD RDNA3 GPU에서 bf16 모델의 W4A16 추론 성능을 획기적으로 개선한 vLLM PR 분석.

#vLLM #ROCm #RDNA3 #GPTQ #W4A16 #HIP #Kernel Optimization #bf16 #fp16 #GPU Programming

2026년 5월 29일

[vllm] vLLM, ROCm 환경에서 AITER MoE 연산 성능 최적화를 위한 환경 변수 노출

vLLM에서 ROCm 환경의 AITER MoE 연산 성능을 개선하기 위해 새로운 환경 변수를 도입하여 최적화 옵션을 제공합니다.

#vLLM #ROCm #AITER #MoE #Performance Optimization #Environment Variable

2026년 5월 27일

[vllm] vLLM DeepSeek V4 ROCm MTP 지원: 하드웨어 최적화와 추론 성능 향상

DeepSeek V4 모델의 ROCm MTP 지원을 통해 추론 성능을 크게 향상시킨 vLLM PR 분석.

#vLLM #ROCm #DeepSeekV4 #MTP #SpeculativeDecoding #Triton #FP8 #Optimization

2026년 5월 24일

[vllm] vLLM ROCm 환경에서 AITER를 활용한 Multi-Head Convolutions(MHC) 성능 최적화 및 안정성 개선

vLLM ROCm 환경에서 AITER 커널을 통합하여 MHC 연산 성능을 크게 향상시키고, Tilelang 의존성을 제거하여 안정성을 높인 PR 분석

#vLLM #ROCm #AITER #MHC #Performance Optimization #Bugfix #DeepSeek V4

2026년 5월 13일

[sglang] [AMD/ROCm] Temporal Unfolding을 통한 VAE Conv3D 성능 최적화 분석

ROCm 환경에서 VAE의 CausalConv3d를 수학적으로 동일한 Batched Conv2D로 변환하여 3.6%의 성능 향상을 달성한 기법을 소개합니다.

#AMD #ROCm #Deep Learning #Optimization #SGLang #PyTorch

2026년 5월 8일

[sglang] AMD GPU에서 FP8 MLA를 활용한 Diffusion 모델 성능 최적화

FP8 MLA ASM 커널을 도입하여 AMD MI355X 환경에서 Diffusion 모델의 추론 속도를 최대 19% 향상시켰습니다.

#AMD #ROCm #FP8 #MLA #SGLang #Optimization

2026년 5월 8일

[sglang] SGLang: ROCm 환경에서 RMSNorm 최적화 - Triton에서 aiter 커널로 전환

SGLang에서 ROCm 환경의 RMSNorm 성능을 aiter 커널로 교체하여 30% 이상 개선했습니다.

#SGLang #ROCm #RMSNorm #aiter #성능 최적화 #HIP #GPU 프로그래밍

2026년 5월 8일

[sglang] AMD ROCm 환경에서의 DeepSeek-V4 성능 최적화: Aiter MHC 커널 통합 분석

SGLang의 AMD 지원 강화: DeepSeek-V4 모델의 MHC 연산을 Aiter 전용 커널로 교체하여 추론 성능을 최적화했습니다.

#DeepSeek-V4 #AMD #ROCm #SGLang #Aiter #Performance Optimization

2026년 5월 4일

[vllm] [vLLM] ROCm 환경에서의 DeepSeek-V2/V3 성능 극대화를 위한 MLA 최적화 분석

ROCm 환경에서 DeepSeek 모델의 MLA 성능을 높이기 위한 KV 캐시 레이아웃 셔플, FP8 Sparse MLA 지원 및 메타데이터 빌더 최적화 기법을 살펴봅니다.

#vLLM #ROCm #DeepSeek #MLA #Performance Optimization #Triton

2026년 5월 1일

[sglang] AMD ROCm 환경에서의 성능 최적화: Triton을 활용한 Fused QK GemmaRMSNorm 구현

ROCm 플랫폼에서 4개의 개별 커널을 하나의 Triton 커널로 통합하여 QK 정규화 성능을 개선한 사례를 분석합니다.

#SGLang #Triton #ROCm #Performance Optimization #LLM

2026년 4월 25일

[sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략

GLM-5 모델의 AMD GPU 성능을 극대화하기 위한 Aiter 백엔드 텐서 패딩 및 커널 파라미터 최적화 분석.

#SGLang #LLM #AMD #ROCm #PerformanceOptimization

2026년 4월 12일

[sglang] SGLang의 AMD AITER AllReduce 최적화: 하드코딩된 제약 제거 및 성능 개선

AITER AllReduce+RMSNorm 융합 커널의 하드코딩된 hidden_dim 허용 목록을 제거하고 경계 조건을 최적화하여 범용성과 성능을 개선했습니다.

#SGLang #AMD #ROCm #AllReduce #Optimization #LLM

2026년 4월 12일

[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합

RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.

#SGLang #AMD #ROCm #FP8 #KernelFusion #LLM

2026년 4월 11일

[vllm] vLLM ROCm Aiter 백엔드 성능 최적화: 불필요한 제로 필링 제거

vLLM ROCm Aiter 백엔드에서 불필요한 GPU 커널 실행을 제거하여 디코드 성능을 개선합니다.

#vLLM #ROCm #Aiter #Performance Optimization #GPU Computing #LLM

2026년 4월 10일

[vllm] AMD ROCm을 위한 Triton 기반 W4A16 커널 도입: MI300X 성능 최적화 분석

vLLM에 AMD ROCm 전용 Triton W4A16 커널이 추가되어 MI300X 환경에서 최대 122%의 성능 향상을 달성했습니다.

#vLLM #ROCm #Triton #Quantization #MI300X #Performance

2026년 4월 10일

[sglang] SGLang의 AMD GPU 성능 최적화: Aiter CK 커널을 활용한 LayerNorm 오버헤드 제거

AMD GPU 환경에서 LayerNorm의 불필요한 커널 호출을 줄여 성능을 개선한 최적화 사례를 분석합니다.

#SGLang #AMD #ROCm #Performance Optimization #LayerNorm

2026년 4월 9일

[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화

AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.

#SGLang #AMD #ROCm #FP8 #LLM #CI/CD

2026년 4월 8일

[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화

4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.

#SGLang #ROCm #Kernel Fusion #LLM #Performance Optimization

2026년 4월 1일

[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체

DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결

#SGLang #AMD #ROCm #MoE #GEMM

2026년 3월 31일

[sglang] AMD/ROCm 시작 크래시 수정: CuteDSL KDA 커널 Lazy Import 적용

SGLang에서 CuteDSL KDA 커널의 top-level import가 AMD/ROCm 환경에서 시작 시 크래시를 유발하는 문제를 lazy import로 수정한 분석.

#SGLang #AMD #ROCm #Bug Fix #Lazy Import #Linear Attention

2026년 3월 25일

[pytorch] CI: fbgemm/torchrec 핀 버전 업데이트 및 빌드 로직 리팩토링

PyTorch CI에서 fbgemm과 torchrec의 핀 버전을 업데이트하고, fbgemm 빌드 로직을 install_fbgemm 함수로 분리하여 CUDA/ROCm 양쪽에서 재사용 가능하게 리팩토링한 사례를 분석합니다.

#PyTorch #CI #fbgemm #torchrec #ROCm #Build System #Refactoring

2026년 1월 11일