#vLLM

50개의 포스트

[vllm] vLLM 성능 최적화: GPU-CPU 간 불필요한 동기화 제거하기

vLLM에서 GPU와 CPU 간의 불필요한 동기화를 제거하여 추론 성능을 극대화하는 최적화 기법을 분석합니다.

#vLLM #LLM #Performance #GPU #Optimization

2026년 5월 19일

[vllm] vLLM Qwen3.5 GDN 최적화: `einops.rearrange`를 `torch.flatten`으로 교체하여 20배 성능 향상!

vLLM에서 Qwen3.5 GDN 레이어의 `einops.rearrange`를 `torch.flatten`으로 교체하여 Python 오버헤드를 줄이고 최대 21배의 속도 향상을 달성한 최적화 사례.

#vLLM #PyTorch #Optimization #Performance #DeepLearning #Qwen3.5 #einops #flatten

2026년 5월 18일

[vllm] vLLM의 혁신: Breakable CUDA Graph로 LLM 추론 성능 최적화

vLLM이 Breakable CUDA Graph를 도입하여 LLM 추론 성능을 향상시킨 PR 분석.

#vLLM #CUDA Graph #Optimization #LLM Inference #Deep Learning

2026년 5월 16일

[논문리뷰] BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE

본 논문은 표준 MoE 모델의 고정된 Top-K 라우팅 방식이 초래하는 연산 중복 문제를 해결하기 위해 BEAM을 제안한다. 기존의 Top-K 메커니즘은 토큰별 복잡도를 고려하지 않고 모든 토큰에 동일한 수의 Expert를 할당하여 불필요한 연산을 발생시킨다.

#Review #Mixture-of-Experts #Dynamic Routing #Expert Sparsity #Inference Acceleration #Binary Expert Activation Masking #vLLM

2026년 5월 14일

[vllm] vLLM의 NIXL KV 전송을 활용한 GDN(Gated Delta Net) 모델 지원 최적화

Qwen3.5와 같은 GDN 모델을 위해 NIXL 커넥터의 컨볼루션 상태 레이아웃을 최적화하고 이기종 TP 환경에서의 전송 효율을 개선했습니다.

#vLLM #LLM #GDN #KV-Cache #Distributed-Serving

2026년 5월 14일

[vllm] Blackwell을 위한 새로운 MLA 백엔드: TOKENSPEED_MLA 분석 (DeepSeek R1 최적화)

Blackwell(SM100) 아키텍처에서 DeepSeek R1의 MLA 성능을 극대화하는 TOKENSPEED_MLA 백엔드 도입 및 분석.

#vLLM #DeepSeek-R1 #MLA #Blackwell #CUDA #Performance-Optimization

2026년 5월 14일

[vllm] vLLM, DeepSeek V4 모델의 저지연을 위한 RMSNorm과 라우터 GEMV 연산 융합으로 성능 극대화

vLLM이 DeepSeek V4 모델에서 RMSNorm과 라우터 GEMV 연산을 융합하여 지연 시간을 단축하고 처리량을 향상시킨 방법을 분석합니다.

#vLLM #DeepSeek V4 #성능 최적화 #CUDA 커널 #LLM 추론

2026년 5월 14일

[vllm] vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor 최적화 도입

vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor를 도입하여 Intel XPU의 2D 블록 읽기 성능을 향상시킵니다.

#vLLM #Triton #Optimization #Deep Learning #LLM

2026년 5월 13일

[vllm] vLLM XPU 가속을 위한 MXFP4 W4A4 GEMM 커널 도입 분석

vLLM의 XPU 플랫폼 지원 확대를 위해 MXFP4 양자화 형식을 지원하는 전용 GEMM 커널 추가 및 최적화 과정을 살펴봅니다.

#vLLM #XPU #MXFP4 #Quantization #GEMM #Performance

2026년 5월 13일

[vllm] vLLM ROCm 환경에서 AITER를 활용한 Multi-Head Convolutions(MHC) 성능 최적화 및 안정성 개선

vLLM ROCm 환경에서 AITER 커널을 통합하여 MHC 연산 성능을 크게 향상시키고, Tilelang 의존성을 제거하여 안정성을 높인 PR 분석

#vLLM #ROCm #AITER #MHC #Performance Optimization #Bugfix #DeepSeek V4

2026년 5월 13일

[vllm] vLLM W8W8 그룹 양자화 성능 최적화: 2D-Grid를 통한 Divmod 제거

vLLM의 W8W8 그룹 양자화 커널에서 divmod 연산을 2D-grid로 대체하여 성능을 개선합니다.

#vLLM #CUDA #GPU 최적화 #양자화 #성능 #divmod #2D-grid

2026년 5월 12일

[vllm] vLLM Mamba2 SSD 커널 웜업: 첫 요청 지연 시간 91% 감소의 비결

vLLM Mamba2 모델의 첫 요청 지연 시간을 91% 줄인 Triton 커널 웜업 최적화 분석.

#vLLM #Mamba2 #Triton #Kernel Optimization #Latency Reduction #Deep Learning Inference

2026년 5월 12일

[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화

vLLM에서 MLA 모델의 RoPE, KV Cache, q_concat 연산을 하나의 커널로 통합하여 추론 성능을 크게 향상시킨 최적화 기법을 분석합니다.

#vLLM #LLM #CUDA #Optimization #MLA #DeepSeek-R1

2026년 5월 11일

[vllm] vLLM, DeepSeek-V4 K 캐시 커널 최적화: CuteDSL 도입으로 성능 향상

vLLM의 DeepSeek-V4 모델에서 K 캐시 커널의 메모리 대역폭 활용도를 높여 성능을 개선한 PR 분석

#vLLM #DeepSeek-V4 #성능 최적화 #GPU 커널 #CuteDSL #Triton

2026년 5월 11일

[논문리뷰] UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

본 논문은 기존의 prefill 가속 기법들이 최신 하이브리드 LLM 아키텍처와 연속 배치(continuous batching) 환경에 부적합하다는 문제를 해결합니다.

#Review #Long-Context LLM #Prefill Acceleration #Dynamic Sparsification #Hybrid Architectures #Continuous Batching #vLLM

2026년 5월 10일

[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상

vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.

#vLLM #DeepSeekV4 #CUDA #CuteDSL #KernelOptimization #GPUPerformance #MXFP4 #Quantization

2026년 5월 9일

[vllm] vLLM, Gemma 4 모델에 양자화된 Speculative Decoding 적용: 성능 향상의 비밀

vLLM이 Gemma 4 모델에 Speculative Decoding을 도입하여 추론 속도를 획기적으로 개선한 방법을 분석합니다.

#vLLM #Speculative Decoding #Gemma 4 #LLM 최적화 #양자화

2026년 5월 6일

[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남

vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.

#vLLM #Humming #MoE #Quantization #Performance Optimization #DeepSeek-V4 #MXFP4

2026년 5월 3일

[vllm] vLLM IR의 진화: maybe_inplace 오버로드를 통한 메모리 최적화

vLLM IR에 maybe_inplace 오버로드를 도입하여 커널 실행 시 입력 텐서 메모리를 재사용함으로써 성능을 개선했습니다.

#vLLM #IR #Optimization #PyTorch #Memory Management

2026년 5월 2일

[vllm] [vLLM] ROCm 환경에서의 DeepSeek-V2/V3 성능 극대화를 위한 MLA 최적화 분석

ROCm 환경에서 DeepSeek 모델의 MLA 성능을 높이기 위한 KV 캐시 레이아웃 셔플, FP8 Sparse MLA 지원 및 메타데이터 빌더 최적화 기법을 살펴봅니다.

#vLLM #ROCm #DeepSeek #MLA #Performance Optimization #Triton

2026년 5월 1일

[vllm] vLLM의 첫 추론 지연 문제 해결: forward_native 샘플러 커널 웜업 최적화

vLLM v1 엔진에서 FlashInfer 도입으로 발생한 JIT 컴파일 지연 문제를 샘플러 웜업 로직 개선으로 해결한 사례를 분석합니다.

#vLLM #LLM #Triton #Performance #JIT

2026년 5월 1일

[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상

vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.

#vLLM #AI #딥러닝 #최적화 #LLM #어텐션 #DCP #All-to-All

2026년 5월 1일

[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화

Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.

#vLLM #LLM #DistributedInference #KVCache #PerformanceOptimization

2026년 4월 30일

[vllm] vLLM chunk_kda 커널의 숨겨진 상태(h) 레이아웃 불일치 버그 수정 및 정확도 개선

vLLM의 chunk_kda 커널에서 h 행렬 레이아웃 불일치 버그를 수정하여 모델 정확도를 크게 개선합니다.

#vLLM #CUDA #Triton #Kernel #Bugfix #Deep Learning #Optimization

2026년 4월 30일

[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기

vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.

#vLLM #Quantization #Humming #LLM #Inference #Optimization

2026년 4월 24일

[vllm] vLLM CPU 성능 최적화: NEON 하드웨어를 위한 고속 Exp 연산 도입

vLLM의 CPU 어텐션 연산에서 저정밀도 데이터 타입을 위한 고속 exp 루틴을 도입하여 성능을 3-4% 향상시켰습니다.

#vLLM #CPU #Optimization #NEON #Performance

2026년 4월 23일

[vllm] vLLM의 콜드 스타트 성능을 20% 향상시키는 비동기 최적화 기법

백그라운드 스레드를 활용한 모델 가중치 프리페치와 forkserver 사전 준비로 vLLM 엔진 구동 시간을 획기적으로 단축했습니다.

#vLLM #Performance #Optimization #Python #Multiprocessing

2026년 4월 21일

[vllm] vLLM, Gemma4 라우팅 함수 Triton 커널로 최적화하여 성능 대폭 향상

vLLM이 Gemma4 모델의 라우팅 함수를 Triton 커널로 최적화하여 서빙 성능을 크게 개선했습니다.

#vLLM #Gemma4 #Triton #최적화 #성능 향상 #AI 모델 서빙

2026년 4월 19일

[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상

vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.

#vLLM #MXFP4 #MoE #Quantization #CUTLASS #Performance Optimization #SM100

2026년 4월 18일

[vllm] vLLM 멀티모달 스케줄러 오버헤드 최적화: Python List 캐싱으로 27% 성능 향상

vLLM 멀티모달 워크로드에서 스케줄러 오버헤드를 줄여 27% 처리량 향상을 달성한 최적화 분석.

#vLLM #최적화 #멀티모달 #성능 #Python #PyTorch

2026년 4월 18일

[vllm] vLLM CI 속도 개선: 70분 걸리던 MoE 테스트를 5분으로 단축하기

불필요한 조합을 제거하고 핵심 시나리오 중심의 테스트 케이스 재설계를 통해 CI 성능을 14배 개선한 사례를 분석합니다.

#vLLM #CI/CD #Optimization #MoE #Python

2026년 4월 18일

[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성

Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.

#vLLM #Gemma4 #CUDA #Performance-Optimization #PyTorch

2026년 4월 17일

[vllm] vLLM, Arm CPU의 BF16 GELU 연산을 LUT 기반 구현으로 8배 가속

vLLM이 Arm CPU 환경에서 BF16 GELU 연산을 LUT 기반으로 구현하여 성능을 크게 향상시킨 PR 분석.

#vLLM #Arm CPU #BF16 #GELU #최적화 #성능 개선 #LUT

2026년 4월 16일

[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화

vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.

#vLLM #LLM #KV Cache #Quantization #Optimization #Triton #GPU Memory

2026년 4월 15일

[vllm] vLLM, Qwen3-VL 비디오 추론을 위한 CUDA Graph 최적화: 성능 향상의 비결

vLLM이 Qwen3-VL 모델의 비디오 추론 성능을 CUDA Graph를 통해 획기적으로 개선한 방법을 분석합니다.

#vLLM #CUDA Graph #Qwen3-VL #최적화 #성능 향상 #LLM

2026년 4월 14일

[vllm] vLLM 성능 최적화: Thread Pool을 활용한 Blocking I/O 오프로딩 전략

vLLM의 Pooling 엔트리포인트에서 발생하는 전/후처리 병목 현상을 Thread Pool로 해결하여 2ms의 지연 시간을 단축한 사례를 분석합니다.

#vLLM #Python #AsyncIO #Performance #Thread Pool

2026년 4월 14일

[vllm] vLLM, H100에서의 QKNorm+RoPE 커널 최적화: 더 나은 성능을 위한 동적 워크로드 분배

vLLM의 QKNorm+RoPE 융합 커널 성능 개선: 동적 워크로드 분배로 H100에서의 효율성 증대

#vLLM #CUDA #Kernel Optimization #H100 #Transformer

2026년 4월 13일

[vllm] vLLM의 XPU 가속을 위한 MXFP8 GEMM 커널 도입 분석

vLLM이 Intel XPU 환경에서 MXFP8 양자화 연산을 지원하기 위해 전용 GEMM 커널을 추가하고 성능 최적화를 달성했습니다.

#vLLM #XPU #MXFP8 #Quantization #GEMM #Intel

2026년 4월 13일

[vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석

vLLM에 추가된 MXFP8 양자화 지원을 통해 추론 처리량을 최대 42% 향상시키고 MoE 모델의 효율성을 극대화하는 방법을 살펴봅니다.

#vLLM #Quantization #MXFP8 #MoE #Performance-Optimization

2026년 4월 12일

[vllm] vLLM ROCm Aiter 백엔드 성능 최적화: 불필요한 제로 필링 제거

vLLM ROCm Aiter 백엔드에서 불필요한 GPU 커널 실행을 제거하여 디코드 성능을 개선합니다.

#vLLM #ROCm #Aiter #Performance Optimization #GPU Computing #LLM

2026년 4월 10일

[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선

Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.

#vLLM #CUDA #Performance #Triton #DeepLearning

2026년 4월 10일

[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석

vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.

#vLLM #Nemotron Nano VL #Pixel Shuffle #최적화 #성능 개선 #PyTorch

2026년 4월 10일

[vllm] AMD ROCm을 위한 Triton 기반 W4A16 커널 도입: MI300X 성능 최적화 분석

vLLM에 AMD ROCm 전용 Triton W4A16 커널이 추가되어 MI300X 환경에서 최대 122%의 성능 향상을 달성했습니다.

#vLLM #ROCm #Triton #Quantization #MI300X #Performance

2026년 4월 10일

[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화

vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.

#vLLM #CUDA #Performance #KV-Cache #Optimization

2026년 4월 3일

[vllm] vLLM의 Mamba 모델 성능 최적화: Conv State 레이아웃 개선

Mamba 모델의 Conv State 레이아웃을 SD에서 DS로 변경하여 TTFT 성능을 약 1.5배 개선하고 HeterogeneousTP를 지원합니다.

#vLLM #Mamba #Optimization #DeepLearning #Performance

2026년 4월 3일

[vllm] [vLLM] GPU-CPU 동기화 병목 제거: prepare_chunk_indices 최적화 분석

GDN Prefill 과정에서 발생하는 .tolist() 호출에 의한 GPU-CPU 동기화 병목을 제거하여 추론 효율성을 높인 사례를 분석합니다.

#vLLM #CUDA #Performance-Optimization #Deep-Learning #Triton

2026년 4월 3일

[Axolotl] 플러그인에 scored rollout 디스패치, 외부 플러그인 경로 확장, vLLM 에러 처리 개선

Axolotl GRPO 트레이너에 on_rollouts_scored 플러그인 훅 추가, pkgutil로 외부 플러그인 발견 경로 확장, vLLM /reset_prefix_cache의 에러 처리를 개선한 분석.

#Axolotl #Plugin System #GRPO #vLLM #Error Handling #Python

2026년 3월 25일

[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기

nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.

#LLM #vLLM #Inference #Optimization #Python #PyTorch

2026년 3월 18일

[axolotl] Async GRPO 지원: vLLM 비동기 생성과 Importance Sampling으로 RLHF 학습 가속화

axolotl에 Async GRPO를 도입하여 vLLM 생성과 학습을 병렬화하고, Importance Sampling 보정으로 분포 이동 문제를 해결한 대규모 기능 추가를 분석합니다.

#Axolotl #GRPO #RLHF #vLLM #Async Training #LoRA

2026년 3월 17일

[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환

PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.

#PyTorch #vLLM #CI #CUDA #Blackwell #GitHub Actions

2026년 2월 25일