[vllm] DFlash - Block Diffusion 기반 Speculative DecodingDFlash 알고리즘을 vLLM에 통합하여 GSM8k에서 acceptance length 6.54를 달성하는 고효율 추론 가속#vllm#Performance2026년 3월 30일댓글 수 로딩 중
[vllm] Thinking Token Hard Limit - 추론 토큰 수 제한으로 리소스 제어reasoning 모델의 thinking token에 hard limit을 설정하여 과도한 연산 소비를 방지하고 예측 가능한 서빙#vllm#Performance2026년 3월 24일댓글 수 로딩 중
[vllm] ViT Full CUDA Graph - 비전 인코더 CUDA Graph 완전 지원EncoderCudaGraphManager를 도입하여 ViT 인코더의 CUDA Graph 캡처/리플레이를 구현, 비전 모델 추론 가속#vllm#Performance2026년 3월 23일댓글 수 로딩 중
[vllm] FlashInfer MoE A2A Kernel - NVLink 기반 Expert Parallelism 통신FlashInfer의 NVLink two-sided/one-sided All-to-All 커널을 통합하여 MoE 모델의 expert parallel 통신 가속#vllm#Performance2026년 3월 16일댓글 수 로딩 중
[vllm] NGram GPU 구현 - 비동기 스케줄러 호환 GPU 기반 N-gram DraftingN-gram speculative decoding을 GPU에서 실행하여 CPU-GPU 동기화 오버헤드를 제거하고 비동기 스케줄링과 호환#vllm#Performance2026년 3월 7일댓글 수 로딩 중
[vllm] --performance-mode: 워크로드별 최적화 프로파일balanced, interactivity, throughput 3가지 모드로 CUDA Graph 캡처 전략과 배칭 동작을 자동 조정#vllm#Performance2026년 2월 26일댓글 수 로딩 중
[vllm] Decode Context Parallel - GPU Model Runner V2용 디코드 단계 컨텍스트 병렬화디코드 단계에서 긴 컨텍스트의 KV cache를 여러 GPU에 분산하여 메모리 효율과 throughput을 동시 개선#vllm#Performance2026년 2월 18일댓글 수 로딩 중
[vllm] Unified Parallel Drafting - Speculative Decoding 통합 프레임워크Eagle, NGram, Suffix 등 다양한 spec decode 방식을 하나의 병렬 drafting 프레임워크로 통합#vllm#Performance2026년 2월 5일댓글 수 로딩 중
[vllm] Draft Model 기반 Speculative Decoding 지원별도의 소형 draft 모델을 활용한 speculative decoding을 vLLM V1 엔진에 공식 통합#vllm#Performance2026년 1월 19일댓글 수 로딩 중
[vllm] MORI KV Connector - ROCm 기반 Prefill-Decode DisaggregationROCm 플랫폼에서 MORI 라이브러리를 활용한 KV cache 전송 커넥터로 PD disaggregation 지원#vllm#Performance2026년 1월 9일댓글 수 로딩 중
[vllm] gRPC Server Entrypoint - 고성능 gRPC 서빙 지원vLLM에 gRPC 서버 엔트리포인트를 추가하여 REST API 대비 낮은 latency와 높은 throughput의 통신 제공#vllm#Performance2026년 1월 8일댓글 수 로딩 중
[vllm] 비동기 스케줄링 기본 활성화로 GPU 유휴 시간 제거async scheduling을 기본값으로 전환하여 스케줄링과 GPU 실행의 파이프라이닝을 통한 throughput 향상#vllm#Performance2025년 12월 29일댓글 수 로딩 중
[vllm] --max-model-len auto: GPU 메모리에 맞춘 자동 컨텍스트 길이 설정max-model-len을 auto(-1)로 설정하면 사용 가능한 GPU 메모리에 맞춰 최대 컨텍스트 길이를 자동 결정#vllm#Performance2025년 12월 24일댓글 수 로딩 중
[vllm] group_topk 커널 최적화 - 1.9% Throughput, 2.1% TPOT 개선MoE 라우팅의 group_topk CUDA 커널을 템플릿 기반으로 최적화하여 분기 제거와 루프 언롤링 적용#vllm#Performance2025년 12월 9일댓글 수 로딩 중
[vllm] xxHash로 Prefix Caching 해싱 성능 가속고성능 해시 함수 xxHash를 도입하여 prefix caching의 블록 해시 계산 속도를 대폭 개선#vllm#Performance2025년 12월 3일댓글 수 로딩 중
[vllm] W4A8 Marlin 커널 - 4비트 가중치 + 8비트 활성화 양자화Marlin 커널에 W4A8 지원을 추가하여 4비트 가중치와 8비트 활성화의 혼합 정밀도 추론 가능#vllm#Performance2025년 11월 29일댓글 수 로딩 중
[vllm] GPU Model Runner V2 - 차세대 모델 실행 엔진vLLM의 GPU 모델 러너를 V2로 재설계하여 비동기 처리, 메모리 관리, 스케줄링 효율을 대폭 개선#vllm#Performance2025년 11월 21일댓글 수 로딩 중
[vllm] MP Executor로 멀티 노드 분산 추론 지원MultiprocExecutor를 확장하여 멀티 노드 환경에서의 텐서/파이프라인 병렬 추론을 V1 엔진에서 지원#vllm#Performance2025년 11월 16일댓글 수 로딩 중
[vllm] ROCm Sleep Mode - AMD GPU 전력 절약 모드 이식CUDA의 투명 sleep mode를 ROCm/HIP으로 이식하여 AMD GPU에서도 유휴 시 전력 절약 가능#vllm#Performance2025년 11월 12일댓글 수 로딩 중
[vllm] Encoder 분리 - Encode-Prefill-Decode Disaggregation멀티모달 모델의 인코더를 분리하여 Encode, Prefill, Decode를 독립적으로 스케일링하는 disaggregation 아키텍처#vllm#Performance2025년 11월 12일댓글 수 로딩 중
[vllm] ROCm AITER MHA 백엔드 재설계AMD GPU용 AITER MHA 어텐션 백엔드를 재설계하여 cache 레이아웃 변환과 컨텍스트 병렬 처리를 개선#vllm#Performance2025년 11월 4일댓글 수 로딩 중
[vllm] Suffix Decoding - Arctic Inference의 접미사 매칭 기반 Spec DecodeArctic Inference의 Suffix Decoding을 통합하여 이전 출력의 접미사 패턴을 활용한 speculative decoding#vllm#Performance2025년 11월 3일댓글 수 로딩 중
[vllm] torch.compile로 Qwen Vision 모델 속도 향상generic nn.Module에서 supports_torch_compile을 활성화하여 Qwen2.5-VL 등 비전 모델의 torch.compile 호환성 확보#vllm#Performance2025년 10월 28일댓글 수 로딩 중