PR Analysis

[vllm] vLLM에 고성능 추론을 위한 HPC-Ops Attention 백엔드 도입

Tencent의 HPC-Ops 라이브러리를 vLLM에 통합하여 FP8 모델 추론 성능을 최적화하는 방법

#vLLM #LLM #HPC #FP8 #Attention

2026년 6월 30일

[open-webui] Open WebUI 성능 최적화: Svelte 컴포넌트에서 불필요한 HTML 재정제 방지

Svelte 컴포넌트에서 스트리밍 업데이트 시 불필요한 HTML 재정제를 방지하여 렌더링 성능을 크게 개선합니다.

#Svelte #Performance #Optimization #DOMPurify #Frontend #WebUI

2026년 6월 29일

[flashinfer] FlashInfer의 TRTLLM-Gen MoE 라우팅 최적화: 레지스터 압박 해소와 성능 극대화

MoE 라우팅 커널의 스레드 블록 크기를 동적으로 최적화하여 레지스터 압박을 줄이고 고성능을 달성한 사례 분석.

#FlashInfer #MoE #CUDA #GPU Optimization #TRTLLM

2026년 6월 29일

[vllm] vLLM의 성능 극대화: Helion 커널을 활용한 fused_qk_norm_rope 최적화

vLLM에 Helion 커널을 도입하여 fused_qk_norm_rope 연산 성능을 H100 기준 최대 1.38배 향상시킨 사례 분석.

#vLLM #Helion #KernelOptimization #CUDA #LLM

2026년 6월 29일

[faster-qwen3-tts] Qwen3-TTS, GGML 백엔드 통합으로 속도 혁신: C++ 네이티브 백엔드의 놀라운 성능 향상

Qwen3-TTS에 GGML 백엔드를 통합하여 C++ 네이티브 구현을 통해 획기적인 성능 개선을 달성했습니다.

#Qwen3-TTS #GGML #성능 최적화 #C++#TTS

2026년 6월 29일

[vllm] vLLM ROCM 최적화: GLM-4 MoE를 위한 Fused Shared Expert(FSE) 도입

GLM-4 MoE 모델의 공유 전문가(Shared Expert)를 FusedMoE 커널로 통합하여 추론 성능을 최대 22% 향상시켰습니다.

#vLLM #ROCm #MoE #Performance #Optimization

2026년 6월 28일

[uv] uv 의존성 해결 성능 최적화: PubGrub 반복 작업 재사용으로 8% 이상 속도 향상

uv resolver가 PubGrub 반복 과정에서 발생하는 중복 작업을 제거하여 의존성 해결 속도를 최대 8.1% 향상시킨 최적화 기법 분석.

#uv #dependency resolution #PubGrub #optimization #Rust #performance #caching

2026년 6월 27일

[vllm] vLLM ROCm 환경에서 FlyDSL을 활용한 MXFP8 MoE 성능 최적화

ROCm gfx950 환경에서 FlyDSL 기반 MXFP8 MoE 커널을 통합하여 추론 성능을 최대 20% 향상하고 백엔드 선택 로직을 개선했습니다.

#vLLM #ROCm #MoE #MXFP8 #Performance #FlyDSL

2026년 6월 27일

[sglang] SGLang LTX-2.3 Diffusion 모델 최적화: Residual-Gate 연산 CUDA Fast Path 도입

SGLang LTX-2.3 모델의 핵심 연산인 residual-gate update를 CUDA 커널로 최적화하여 성능을 크게 향상시켰습니다.

#SGLang #CUDA #Optimization #Diffusion Models #Deep Learning #Performance

2026년 6월 27일

[vllm] vLLM의 GLM5.2 성능 최적화: Triton 커널 융합을 통한 E2E Throughput 향상

Triton 커널 융합으로 Q RoPE, FP8 양자화, 스케일 폴딩을 통합하여 추론 성능을 최대 3.3% 개선했습니다.

#vLLM #Triton #LLM #Optimization #FP8

2026년 6월 27일

[sglang] SGLang, CUDA 그래프 재실행 시 호스트-디바이스 동기화 제거로 성능 향상

SGLang에서 CUDA 그래프 재실행 시 불필요한 호스트-디바이스 동기화를 제거하여 GPU 활용률을 높이고 응답 속도를 개선했습니다.

#SGLang #CUDA #최적화 #성능 #LLM

2026년 6월 27일

[vllm] vLLM, DeepSeek V4 모델 성능 최적화: AITER MXFP4 BF16 백엔드 개선

vLLM에서 DeepSeek V4 모델의 성능을 향상시키기 위한 AITER MXFP4 BF16 백엔드 최적화 분석

#vLLM #DeepSeekV4 #LLM #Performance #Optimization #ROCm #AITER #MXFP4

2026년 6월 26일

[vllm] vLLM ROCm 환경에서 Shared-Expert Fusion을 통한 MoE 추론 성능 최적화

MiniMax-M3 모델의 공유 전문가(Shared-expert)를 라우팅된 그룹 GEMM에 통합하여 추론 지연 시간을 최대 30% 개선했습니다.

#vLLM #ROCm #MoE #Performance #Optimization

2026년 6월 26일

[onnxruntime] [ONNX Runtime] SGEMM의 함정에서 벗어나기: GQA 전용 GEMV 커널을 통한 디코딩 최적화

ONNX Runtime에서 M=1인 디코딩 상황의 SGEMM 오버헤드를 해결하고, 전용 GEMV 커널로 GQA 성능을 최대 1.5배 끌어올린 최적화 사례를 분석합니다.

#ONNX Runtime #GQA #Performance Optimization #GEMV #LLM Inference

2026년 6월 26일

[sglang] SGLang의 Qwen3.5 성능 극대화: Fused QK GemmaRMSNorm + RoPE 커널 최적화 분석

Qwen3.5 모델의 어텐션 레이어 연산을 Triton 커널로 통합하여 메모리 접근을 줄이고 추론 성능을 최대 9.4% 향상시킨 최적화 기법을 소개합니다.

#SGLang #Triton #LLM #Optimization #Qwen3.5

2026년 6월 25일

[loki] Grafana Loki 엔진의 집계 성능 최적화: 메모리 할당 감소와 효율적인 라벨 처리

Loki 엔진의 집계 로직을 개선하여 메모리 할당을 줄이고, 라벨 캐싱 최적화 및 AddN 도입으로 성능을 약 25% 향상시켰습니다.

#Grafana Loki #Go #Performance Optimization #Memory Management #Engineering

2026년 6월 24일

[sglang] SGLang 성능 최적화: D2H 복사 연산의 비동기 오버랩 구현

SGLang에서 D2H(Device-to-Host) 복사를 별도 스트림으로 분리하여 추론 성능을 향상시킨 최적화 사례 분석.

#SGLang #CUDA #Performance #Optimization #LLM

2026년 6월 24일

[axolotl] Axolotl, 대규모 언어 모델 학습 시 메모리 부족 문제 해결: 효율적인 데이터셋 처리 개선

Axolotl 라이브러리에서 대규모 SFT 데이터셋 로딩 시 발생하는 RAM OOM 오류를 해결하는 코드 변경 사항을 분석합니다.

#Python #PyTorch #Hugging Face Datasets #Optimization #LLM

2026년 6월 24일

[onnxruntime] ONNX Runtime: MoE Router GEMV 최적화 및 Bias Fusion 구현

GPT-OSS-20B 모델의 MoE 라우터 성능 향상을 위해 MatMulNBits 커널에 특화된 GEMV 경로와 Bias Fusion을 도입했습니다.

#ONNX Runtime #CUDA #MoE #GEMV #Optimization

2026년 6월 24일

[sglang] [HunyuanVideo] Sequence Parallelism 최적화: Text Token Sharding으로 성능 한계 돌파하기

HunyuanVideo 모델에서 텍스트 토큰을 분산 처리하여 중복 연산을 제거하고 추론 속도를 최대 5.7% 향상시킨 기법을 분석합니다.

#SGLang #HunyuanVideo #Sequence Parallelism #DeepSpeed Ulysses #Distributed Computing

2026년 6월 20일