PR Analysis

[vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기

vLLM에서 MiniMax-M2 모델의 MoE Gate 연산을 Fused Kernel로 최적화하여 저지연 환경의 성능을 대폭 개선한 사례를 분석합니다.

#vLLM #CUDA #MoE #Optimization #MiniMax-M2 #LLM Serving

2026년 5월 30일

[sglang] SGLang의 add_constant 커널 최적화: 아키텍처 인지 벡터화(Vectorization) 도입

대규모 텐서 연산 시 벡터화된 커널을 사용하여 add_constant 성능을 최대 35% 향상시키는 최적화 기법을 분석합니다.

#SGLang #CUDA #KernelOptimization #Vectorization #H200

2026년 5월 30일

[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입

DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석

#AI #LLM #최적화 #성능 #DeepSeek-V4 #sglang #Kernel Fusion

2026년 5월 30일

[vllm] vLLM, DeepSeek-V3.2 모델의 ROCm 성능 최적화: CPU 측 마이크로 최적화 3가지 분석

vLLM의 DeepSeek-V3.2 모델에서 ROCm 환경의 CPU 측 코드 최적화를 통해 성능을 개선한 PR을 분석합니다.

#vLLM #ROCm #DeepSeek-V3.2 #성능 최적화 #기술 블로그

2026년 5월 29일

[sglang] sglang ROCm MXFP4 어텐션에서 불필요한 contiguous copy 제거를 통한 성능 최적화

ROCm 환경의 MXFP4 디코딩 경로에서 발생하는 불필요한 메모리 복사를 제거하여 성능을 개선한 PR 분석입니다.

#sglang #ROCm #MXFP4 #Attention #Optimization #Performance #Deepseek

2026년 5월 29일

[vllm] AMD RDNA3 (gfx1100)를 위한 vLLM의 W4A16 GPTQ 커널 최적화 심층 분석

AMD RDNA3 GPU에서 bf16 모델의 W4A16 추론 성능을 획기적으로 개선한 vLLM PR 분석.

#vLLM #ROCm #RDNA3 #GPTQ #W4A16 #HIP #Kernel Optimization #bf16 #fp16 #GPU Programming

2026년 5월 29일

[onnxruntime] ONNX Runtime의 CPU GQA 최적화: Flash Attention과 Flash Decoding 도입

CPU 환경에서 INT8/INT4 양자화된 KV 캐시를 위한 Flash Attention 기반의 타일링 및 Flash Decoding 구현으로 성능을 극대화합니다.

#ONNX Runtime #LLM #Flash Attention #CPU Optimization #Quantization

2026년 5월 29일

[flashinfer] FlashInfer MLA 커널 최적화: num_heads < 128 환경에서의 성능 극대화

Blackwell GPU에서 MLA 디코드 커널의 num_heads < 128 성능을 개선하기 위해 seqlen_q를 헤드 차원으로 폴딩하는 최적화 기법을 소개합니다.

#FlashInfer #GPU #MLA #Optimization #Blackwell #CUDA

2026년 5월 29일

[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화

Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석

#Axolotl #MoE #Tiled-MLP #FSDP2 #최적화 #성능 개선 #딥러닝

2026년 5월 28일

[feast] Feast Feature Server의 직렬화 성능 4배 향상: MessageToDict 최적화

Feast의 Feature Server에서 Protobuf 직렬화 병목을 해결하기 위해 커스텀 dict 빌더를 도입하여 성능을 4배 개선한 사례를 분석합니다.

#Feast #Python #Protobuf #Performance #Optimization

2026년 5월 28일

[sglang] [SGLang] Blackwell(B200)에서 Diffusion Attention 성능을 7배 끌어올리는 Triton 커널 최적화 분석

PyTorch SDPA의 마스크 처리 한계를 Triton 커널 퓨전과 Varlen FlashAttention으로 극복하여 B200에서 최대 21%의 성능 향상을 달성했습니다.

#Triton #FlashAttention #Diffusion #CUDA #Performance Optimization #SGLang

2026년 5월 28일

[vllm] vLLM의 MoE Permute 최적화: 버퍼 사전 할당을 통한 성능 향상

MoE 연산 시 빈번한 메모리 할당을 제거하여 소규모 배치에서 최대 14%의 성능 향상을 달성한 최적화 기법을 분석합니다.

#vLLM #MoE #CUDA #PerformanceOptimization #DeepLearning

2026년 5월 28일

[transformers] Apple Silicon의 MPS에서 Flash Attention 최적화: 속도와 효율성 향상

Apple Silicon의 MPS 환경에서 Flash Attention의 성능을 1.66배 향상시키는 최적화 방안을 소개합니다.

#Apple Silicon #MPS #Flash Attention #최적화 #성능 향상 #Hugging Face Transformers

2026년 5월 28일

[triton] [Triton] Persistent Matmul 성능을 13% 향상시킨 정교한 Shared Memory 계산 기법 분석

Shared Memory 계산 휴리스틱을 개선하여 TF32 Matmul에서 4-stage 파이프라이닝을 활성화하고 GB200 성능을 13% 끌어올린 사례를 분석합니다.

#Triton #GPU #CUDA #Matmul #Optimization #Deep Learning

2026년 5월 27일

[vllm] vLLM, ROCm 환경에서 AITER MoE 연산 성능 최적화를 위한 환경 변수 노출

vLLM에서 ROCm 환경의 AITER MoE 연산 성능을 개선하기 위해 새로운 환경 변수를 도입하여 최적화 옵션을 제공합니다.

#vLLM #ROCm #AITER #MoE #Performance Optimization #Environment Variable

2026년 5월 27일

[vllm] [vLLM] W4A16 양자화 모델의 호환성 문제 해결: Triton 커널을 활용한 CUDA Fallback 구현

Marlin 커널의 정렬 제약으로 인해 실행 불가능했던 W4A16 모델들을 Triton 커널 fallback을 통해 CUDA 환경에서도 지원하도록 개선했습니다.

#vLLM #CUDA #Triton #Quantization #LLM Inference #W4A16

2026년 5월 27일

[onnxruntime] ONNX Runtime CUTLASS FMHA: BiasLoader 정렬 문제 해결로 안정성 및 호환성 향상

ONNX Runtime의 CUTLASS FMHA에서 BiasLoader의 정렬 문제를 해결하여 CUDA 커널의 안정성과 호환성을 개선했습니다.

#ONNX Runtime #CUDA #CUTLASS #FMHA #최적화 #성능

2026년 5월 27일

[sglang] Pydantic 유효성 검사 최적화: C 루프를 이용한 API 성능 향상

FastAPI 요청 처리 시 Pydantic의 느린 요소별 유효성 검사를 C 루프로 대체하여 API 성능을 25배 향상시킨 PR 분석

#Python #FastAPI #Pydantic #Performance Optimization #C Extension

2026년 5월 27일

[openclaw] Node.js 오디오 코덱 성능 최적화: TypedArray를 활용한 효율적인 PCM 처리

Node.js 오디오 코덱의 핵심 경로에서 TypedArray를 사용하여 PCM 데이터 처리를 최적화한 PR 분석

#Node.js #성능 최적화 #오디오 코덱 #TypedArray #Buffer

2026년 5월 26일

[sglang] 성능 최적화의 함정: DeepSeek-V3.2 정확도 붕괴를 막기 위한 SGLang의 긴급 롤백 분석

EAGLE 드래프트 모델에서 Softmax를 생략하는 최적화가 DeepSeek-V3.2 MTP 모델의 정확도를 96%나 떨어뜨린 이유와 그 해결책을 분석합니다.

#SGLang #Speculative Decoding #DeepSeek-V3 #Performance Optimization #LLM Inference

2026년 5월 26일