[vLLM] Speech-to-Text: 음성 인식 APIvLLM의 Speech-to-Text(STT) API 구현을 분석한다. OpenAI 호환 Transcription/Translation 엔드포인트, 스트리밍 처리, Whisper 모델 통합을 살펴본다.#vllm#speech-to-text#whisper#openai-api#audio2026년 4월 8일댓글 수 로딩 중
[vLLM] CPU/XPU Worker: 비NVIDIA 하드웨어 워커vLLM의 CPU 워커 구현을 분석한다. GPU Worker를 상속하면서 CPU 특화 초기화, 라이브러리 사전 로딩 검증, Sleep Mode 비활성화를 살펴본다.#vllm#cpu#worker#hardware2026년 4월 8일댓글 수 로딩 중
[vLLM] Warmup: 커널 JIT 사전 컴파일vLLM의 워밍업 시스템을 분석한다. Deep GEMM, FlashInfer 오토튜닝, 어텐션 커널 사전 워밍업으로 JIT 컴파일 지연을 제거하는 전략을 살펴본다.#vllm#warmup#jit#deep-gemm#flashinfer2026년 4월 8일댓글 수 로딩 중
[vLLM] Tree Attention: 투기적 디코딩용 트리 어텐션vLLM의 Tree Attention 백엔드를 분석한다. 투기적 디코딩의 트리 구조 토큰 검증을 위한 어텐션 마스크 생성과 Triton 기반 통합 어텐션을 살펴본다.#vllm#tree-attention#speculative-decoding#triton2026년 4월 8일댓글 수 로딩 중
[vLLM] 기타 Model Layers: Pooler, Resampler, Vocab Parallel Embedding 등vLLM의 핵심 모델 레이어들을 분석한다. VocabParallelEmbedding의 텐서 병렬 분할, Resampler의 멀티모달 처리, Pooler의 추상화를 살펴본다.#vllm#model-layers#embedding#pooler#tensor-parallel2026년 4월 8일댓글 수 로딩 중
[vLLM] 기타 Attention Backends: GDN, Flex, Triton, DiffKV, MLA Sparse, CPU/ROCmvLLM의 다양한 어텐션 백엔드를 분석한다. GatedDeltaNet, FlexAttention, Triton, DiffKV, MLA Sparse, ROCm AIter 등의 구현 특징을 살펴본다.#vllm#attention#backends#triton#rocm2026년 4월 8일댓글 수 로딩 중
[vLLM] Lightning & Linear Attention: 선형 어텐션 구현vLLM의 선형 어텐션 백엔드와 Lightning Attention 구현을 분석한다. SSM 스타일 상태 관리, Triton 커널 기반 diagonal block 연산을 살펴본다.#vllm#linear-attention#lightning-attention#ssm#triton2026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Coordinator: 하이브리드 KV 캐시 조율vLLM의 KV 캐시 코디네이터를 분석한다. Unitary, Hybrid, NoPrefixCache 세 가지 코디네이터와 하이브리드 어텐션 모델의 캐시 히트 탐색 알고리즘을 살펴본다.#vllm#kv-cache#prefix-caching#hybrid-attention2026년 4월 8일댓글 수 로딩 중
[vLLM] Preemption & Async Scheduling: 선점과 비동기 스케줄링vLLM v1 스케줄러의 선점 메커니즘과 비동기 스케줄링을 분석한다. waiting/running 큐 관리, KV 커넥터 통합, 멀티모달 예산 관리를 살펴본다.#vllm#scheduler#preemption#async#memory-management2026년 4월 8일댓글 수 로딩 중
[vLLM] Plugin & Hardware: 플러그인 시스템과 하드웨어 플랫폼vLLM의 플러그인 시스템과 하드웨어 플랫폼 추상화를 분석한다. entry_points 기반 플러그인 발견, 자동 플랫폼 감지의 구현을 살펴본다.#vllm#plugins#hardware#platform#extensibility2026년 4월 8일댓글 수 로딩 중
[vLLM] Observability: 추적, 프로파일링, 메트릭vLLM의 관측 가능성 시스템을 분석한다. OpenTelemetry 기반 추적, 프로세스 간 트레이스 전파, 사용량 수집의 구현을 살펴본다.#vllm#observability#opentelemetry#tracing#profiling2026년 4월 8일댓글 수 로딩 중
[vLLM] Sleep Mode: GPU 메모리 동적 관리vLLM의 Sleep Mode를 구현하는 CuMemAllocator를 분석한다. PyTorch pluggable allocator를 활용한 GPU 메모리 오프로딩과 복원 메커니즘을 살펴본다.#vllm#sleep-mode#memory-management#cuda#gpu2026년 4월 8일댓글 수 로딩 중
[vLLM] Multimodal: Vision, Audio, Video 처리 파이프라인vLLM의 멀티모달 처리 시스템을 분석한다. MultiModalRegistry, 프로세서 팩토리 패턴, 캐싱 전략의 구현을 살펴본다.#vllm#multimodal#vision#audio#video2026년 4월 8일댓글 수 로딩 중
[vLLM] Reasoning & Tool Calling: 추론 파서와 도구 호출 파서vLLM의 추론 콘텐츠 파서(ReasoningParser)와 도구 호출 파서(ToolParser) 시스템을 분석한다. 20개 이상의 모델별 파서를 통합하는 레지스트리 패턴을 살펴본다.#vllm#reasoning#tool-calling#function-calling#openai-api2026년 4월 8일댓글 수 로딩 중
[vLLM] Compilation Fusion Passes: 컴파일 퓨전 최적화vLLM의 torch.compile 기반 커널 퓨전 패스를 분석한다. RMSNorm+Quantization 퓨전, 패턴 매칭 기반 최적화의 구현을 살펴본다.#vllm#compilation#fusion#torch-compile#optimization2026년 4월 8일댓글 수 로딩 중
[vLLM] Model Weight Offloading: 가중치 CPU 오프로딩vLLM의 모델 가중치 CPU 오프로딩 시스템을 분석한다. UVA 오프로딩과 Prefetch 오프로딩, 두 가지 전략의 구현 차이를 코드 레벨에서 살펴본다.#vllm#offloading#memory-management#prefetch2026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.#vllm#kv-cache#quantization#fp82026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Offloading: GPU에서 CPU로의 KV 캐시 오프로딩vLLM v1의 KV 캐시 CPU 오프로딩 시스템을 분석한다. OffloadingManager 추상화, LRU/ARC 캐시 정책, 블록 레벨 관리의 설계를 살펴본다.#vllm#kv-cache#offloading#memory-management2026년 4월 8일댓글 수 로딩 중
[vLLM] MTP & DFlash: 다중 토큰 예측과 Flash 기반 드래프팅vLLM의 DFlash 투기적 디코딩 구현을 분석한다. 다중 토큰 예측(MTP)을 Flash Attention 기반으로 구현한 DFlashProposer의 핵심 로직을 살펴본다.#vllm#speculative-decoding#mtp#dflash#flash-attention2026년 4월 8일댓글 수 로딩 중
[vLLM] Beam Search: 빔 서치 디코딩 구현 분석vLLM의 빔 서치 디코딩 구현을 분석한다. BeamSearchSequence, 스코어링, length penalty 로직을 코드 레벨에서 살펴본다.#vllm#beam-search#decoding#inference2026년 4월 8일댓글 수 로딩 중
[vLLM] Sampling Parameters: 전체 샘플링 파라미터 정리vLLM의 SamplingParams 클래스를 완전히 해부한다. temperature, top_p, top_k부터 structured_outputs, repetition_detection까지 전체 파라미터.#vllm#sampling#parameters#structured-output#inference2026년 4월 8일댓글 수 로딩 중
[vLLM] Shared Experts: 공유 전문가 레이어 (DeepSeek-V2/V3)vLLM의 공유 전문가(Shared Expert) 구현을 분석한다. DeepSeek-V2/V3의 공유 전문가와 라우팅 전문가를 동시에 실행하는 구조.#vllm#moe#shared-experts#deepseek2026년 4월 8일댓글 수 로딩 중
[vLLM] MoE Oracle & Prepare/Finalize: 백엔드 선택과 분산 데이터 교환vLLM MoE의 Oracle 시스템(백엔드 자동 선택)과 Prepare/Finalize 패턴(분산 데이터 교환)을 분석한다.#vllm#moe#oracle#deepep#expert-parallelism2026년 4월 7일댓글 수 로딩 중
[vLLM] MoE 라우팅 전략: 7종 라우팅 알고리즘 분석vLLM의 MoE 라우터 구현을 분석한다. FusedTopK, GroupedTopK, BiasRouter, CustomRouting, RoutingSimulator까지 7가지 라우팅 전략.#vllm#moe#routing#deepseek#expert-selection2026년 4월 7일댓글 수 로딩 중
[vLLM] 기타 양자화: FP8, ModelOpt, INC, TorchAO, QuarkvLLM이 지원하는 다양한 양자화 방식을 총정리한다. 온라인 FP8, NVIDIA ModelOpt, Intel Neural Compressor, TorchAO, AMD Quark까지.#vllm#quantization#fp8#modelopt#torchao#quark#inc2026년 4월 7일댓글 수 로딩 중
[vLLM] Compressed Tensors: 양자화+희소성 통합 프레임워크Neural Magic의 Compressed Tensors 프레임워크가 vLLM에서 어떻게 통합되는지 분석한다. W8A8, W4A16, 2:4 희소성까지 하나의 추상화로 처리하는 구조.#vllm#quantization#compressed-tensors#sparsity#neural-magic2026년 4월 7일댓글 수 로딩 중
[vLLM] GGUF: llama.cpp 양자화 포맷 지원vLLM에서 llama.cpp의 GGUF 양자화 포맷을 어떻게 지원하는지 분석한다. Q4_0부터 IQ4_XS까지의 양자화 타입별 커널 전략.#vllm#quantization#gguf#llama-cpp2026년 4월 7일댓글 수 로딩 중
[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.#vllm#quantization#marlin#gptq#gemm2026년 4월 7일댓글 수 로딩 중
[vLLM] BitsAndBytes (QLoRA): 4비트 NormalFloat 양자화vLLM에서 BitsAndBytes 양자화가 어떻게 통합되어 있는지 분석한다. 4비트/8비트 양자화의 내부 구현과 MoE 지원.#vllm#quantization#bitsandbytes#qlora#nf42026년 4월 7일댓글 수 로딩 중
[vLLM] MXFP8/MXFP4: 마이크로스케일링 포맷 양자화vLLM의 MXFP8/MXFP4 마이크로스케일링 양자화 구현을 분석한다. Block-32 단위 스케일링의 핵심 구조와 MoE 지원까지.#vllm#quantization#mxfp8#mxfp4#microscaling2026년 4월 7일댓글 수 로딩 중
[vLLM] Pipeline Parallelism: 파이프라인 병렬화vLLM이 파이프라인 병렬화를 구현하여 대규모 모델을 여러 GPU에 분산하는 방식을 분석한다.#vllm#pipeline-parallelism#distributed#gpu2026년 4월 7일댓글 수 로딩 중
[vLLM] Model Loader: 모델 가중치 로딩vLLM이 다양한 포맷의 모델 가중치를 로딩하는 DefaultModelLoader의 내부 동작을 분석한다.#vllm#model-loading#safetensors#quantization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPU Worker & InputBatchvLLM의 GPU Worker가 모델을 로딩하고 실행하는 과정과 InputBatch의 GPU 텐서 관리를 분석한다.#vllm#gpu-worker#cuda#memory-management2026년 4월 7일댓글 수 로딩 중
[vLLM] Executor 아키텍처: UniProc, Multiproc, RayvLLM v1의 Executor 추상화가 단일 GPU부터 다중 노드까지 실행 환경을 통합하는 방식을 분석한다.#vllm#executor#distributed#ray#multiprocessing2026년 4월 7일댓글 수 로딩 중
[vLLM] Renderer & Tokenizer: 모델별 입력 파이프라인vLLM의 Renderer와 Tokenizer 레지스트리가 다양한 모델의 입력 형식을 처리하는 구조를 분석한다.#vllm#tokenizer#renderer#multimodal2026년 4월 7일댓글 수 로딩 중
[vLLM] OutputProcessor: 출력 후처리 및 디토크나이징vLLM의 OutputProcessor가 엔진 출력을 사용자에게 전달 가능한 형태로 변환하는 과정을 분석한다.#vllm#output-processing#detokenization#streaming2026년 4월 7일댓글 수 로딩 중
[vLLM] InputProcessor: 입력 전처리 파이프라인vLLM v1 엔진의 InputProcessor가 사용자 프롬프트를 EngineCoreRequest로 변환하는 전체 파이프라인을 분석한다.#vllm#input-processing#tokenization#multimodal2026년 4월 7일댓글 수 로딩 중
[vLLM] Pooling Tasks: 임베딩, 분류, 스코어링vLLM이 생성 태스크 외에 임베딩, 분류, 스코어링을 지원하는 Pooling 시스템의 구조를 분석한다.#vllm#embedding#pooling#classification2026년 4월 7일댓글 수 로딩 중
[vLLM] 오프라인 LLM API: 배치 추론 Python APIvLLM의 LLM 클래스를 통한 오프라인 배치 추론 API의 내부 구조를 분석한다.#vllm#offline-inference#batch-processing#python-api2026년 4월 7일댓글 수 로딩 중
[vLLM] OpenAI 호환 API 서버: FastAPI 기반 HTTP 서빙vLLM이 OpenAI API와 호환되는 HTTP 서버를 FastAPI로 구축하는 방법을 코드 레벨에서 분석한다.#vllm#openai#fastapi#serving2026년 4월 7일댓글 수 로딩 중
[vLLM] KV Transfer Connectors: KV 캐시 전송 프레임워크vLLM v1의 KV Transfer Connector 프레임워크를 분석한다. Prefill-Decode 분리, KV 캐시 오프로딩, NIXL 원격 전송 등 다양한 KV 전송 전략을 지원하는 추상화 계층을 살펴본다.#vllm#KV cache#distributed#disaggregated serving#connector2026년 4월 7일댓글 수 로딩 중
[vLLM] Context Parallelism: 컨텍스트 병렬화vLLM의 Decode Context Parallelism(DCP) 구현을 분석한다. All-to-All 통신으로 어텐션 출력과 LSE를 교환하고 Triton 커널로 결합하는 방법을 코드 레벨에서 살펴본다.#vllm#context parallelism#distributed#all-to-all#triton2026년 4월 7일댓글 수 로딩 중
[vLLM] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링vLLM의 Mamba SSM attention backend 구현을 분석한다. Transformer의 이차 복잡도를 넘어 선형 시간에 시퀀스를 처리하는 Mamba의 상태 관리, 프리픽스 캐싱, 투기적 디코딩 지원을 살펴본다.#vllm#mamba#SSM#state space model#attention backend2026년 4월 7일댓글 수 로딩 중
[vLLM] N-gram & Suffix Decoding: 모델 프리 드래프트별도 모델 없이 입력 시퀀스의 패턴만으로 드래프트 토큰을 생성하는 N-gram Proposer와 Suffix Decoding의 vLLM 구현을 분석한다.#vllm#speculative decoding#ngram#suffix decoding#numba2026년 4월 7일댓글 수 로딩 중
[vLLM] Medusa: 다중 예측 헤드 투기적 디코딩Medusa 투기적 디코딩의 vLLM 구현을 분석한다. 타겟 모델의 hidden state에서 다중 헤드로 드래프트 토큰을 생성하여 디코딩을 가속하는 방법을 코드 레벨에서 살펴본다.#vllm#speculative decoding#medusa#LLM acceleration2026년 4월 7일댓글 수 로딩 중
[vLLM] CUDA Graphs: 커널 런칭 오버헤드 제거vLLM이 CUDA Graph를 활용하여 디코드 단계의 커널 런칭 오버헤드를 제거하는 방법을 CUDAGraphWrapper와 GPUModelRunner 코드 레벨에서 분석한다.#vllm#CUDA graphs#optimization#GPU#kernel launch2026년 4월 7일댓글 수 로딩 중
[vLLM] torch.compile 통합: PyTorch 컴파일러vLLM이 torch.compile을 어떻게 통합하여 모델 포워드 패스를 최적화하는지, 커스텀 백엔드와 Piecewise 컴파일 전략을 코드 레벨에서 분석한다.#vllm#torch.compile#compilation#inductor#optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPUModelRunner: GPU 모델 포워드 패스vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.#vllm#GPU#model runner#forward pass#CUDA2026년 4월 7일댓글 수 로딩 중
[vLLM] EngineCore: 핵심 실행 루프vLLM v1 EngineCore의 스케줄링-실행-업데이트 루프를 코드 레벨에서 분석한다. 별도 프로세스에서 돌아가는 이 엔진의 step() 함수가 모든 것을 조율한다.#vllm#scheduler#engine core#inference loop2026년 4월 7일댓글 수 로딩 중
[vLLM] AsyncLLM: 비동기 엔진의 최상위 객체vLLM v1의 AsyncLLM 클래스가 어떻게 비동기 요청 처리, 멀티프로세스 EngineCore 통신, 스트리밍 출력을 조율하는지 코드 레벨에서 분석한다.#vllm#async#inference engine#LLM serving2026년 4월 7일댓글 수 로딩 중
[vLLM] Expert Parallelism & EPLB: 전문가 병렬화와 부하 균형vLLM의 Expert Parallelism 구현과 EPLB(Expert Parallelism Load Balancer)의 동적 전문가 재배치 메커니즘을 코드와 함께 분석한다.#vllm#expert-parallelism#load-balancing#deepseek#moe2026년 4월 7일댓글 수 로딩 중
[vLLM] Disaggregated Prefill/Decode: 분리된 서빙vLLM의 KV Connector 아키텍처를 통해 Prefill과 Decode를 별도 노드에서 실행하는 Disaggregated Serving의 구현 구조를 분석한다.#vllm#disaggregated-serving#kv-transfer#distributed-inference2026년 4월 7일댓글 수 로딩 중
[vLLM] Automatic Prefix Caching: 접두사 캐싱vLLM의 KVCacheManager가 해시 기반으로 프롬프트 접두사를 자동 캐싱하여 중복 연산을 제거하는 메커니즘을 코드와 함께 분석한다.#vllm#kv-cache#prefix-caching#scheduling2026년 4월 7일댓글 수 로딩 중
[vLLM] Structured Output: JSON/regex/문법 제약 생성vLLM이 xgrammar, outlines 등의 백엔드를 활용하여 LLM 출력을 JSON 스키마, 정규식, 문법 규칙으로 제약하는 구조를 분석한다.#vllm#structured-output#json-schema#constrained-decoding2026년 4월 7일댓글 수 로딩 중
[vLLM] RoPE 변형: 15+ 로타리 위치 인코딩vLLM에 구현된 15가지 이상의 RoPE 변형을 총정리하고, 기본 구현부터 YaRN, Llama3 RoPE까지의 코드 구조를 분석한다.#vllm#rope#positional-encoding#attention2026년 4월 7일댓글 수 로딩 중
[vLLM] Fused MoE: 라우팅+전문가 연산 융합vLLM의 Fused MoE 레이어가 라우터와 전문가 연산을 하나의 커널로 융합하여 MoE 모델을 효율적으로 서빙하는 구조를 분석한다.#vllm#moe#fused-kernel#deepseek#mixtral2026년 4월 7일댓글 수 로딩 중
[vLLM] LoRA (Multi-LoRA Serving): 저차원 어댑터 서빙vLLM이 하나의 베이스 모델 위에서 여러 LoRA 어댑터를 동시에 서빙하는 Multi-LoRA 아키텍처를 코드와 함께 분석한다.#vllm#lora#fine-tuning#multi-tenant serving2026년 4월 7일댓글 수 로딩 중
[vLLM] FP8: 8비트 부동소수점 양자화FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.#vllm#quantization#fp8#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] AWQ: 활성화 인식 가중치 양자화AWQ의 핵심 아이디어인 활성화 기반 중요 채널 보존이 vLLM에서 어떻게 구현되는지 코드 레벨로 분석한다.#vllm#quantization#awq#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.#vllm#quantization#gptq#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] Tensor Parallelism: 거대 모델을 여러 GPU에 나누는 텐서 병렬화Megatron-LM 스타일의 텐서 병렬화가 vLLM의 Linear 레이어에 어떻게 구현되어 있는지를 ColumnParallelLinear와 RowParallelLinear 코드로 분석한다.#vllm#tensor-parallelism#distributed#megatron2026년 4월 7일댓글 수 로딩 중
[vLLM] Sampler: logits에서 토큰까지, 샘플링 파이프라인 전체 분석모델 출력 logits를 실제 토큰으로 변환하는 vLLM Sampler의 9단계 파이프라인을 코드 레벨에서 분석한다.#vllm#sampler#sampling#logits-processing2026년 4월 7일댓글 수 로딩 중
[vLLM] EAGLE: 은닉 상태 기반 드래프트로 Speculative Decoding을 강화하다타겟 모델의 은닉 상태(hidden states)를 직접 활용하여 드래프트 정확도를 높이는 EAGLE의 vLLM 구현을 분석한다.#vllm#eagle#speculative-decoding#hidden-states2026년 4월 7일댓글 수 로딩 중
[vLLM] Speculative Decoding: 드래프트 모델로 LLM 디코딩을 가속하는 원리작은 드래프트 모델이 여러 토큰을 미리 생성하고, 큰 타겟 모델이 한 번에 검증하는 Speculative Decoding의 vLLM 구현을 분석한다.#vllm#speculative-decoding#inference-acceleration#draft-model2026년 4월 7일댓글 수 로딩 중
[vLLM] Multi-head Latent Attention: KV 캐시를 압축하는 DeepSeek의 어텐션KV 캐시를 저차원 잠재 공간으로 압축하여 메모리를 대폭 줄이는 MLA(Multi-head Latent Attention)의 vLLM 구현을 분석한다.#vllm#mla#deepseek#kv-cache-compression2026년 4월 7일댓글 수 로딩 중
[vLLM] FlashInfer: LLM 서빙에 특화된 어텐션 엔진Prefill과 Decode를 분리 최적화하고 다양한 KV 캐시 포맷을 지원하는 FlashInfer 백엔드의 vLLM 통합 구조를 분석한다.#vllm#flashinfer#attention#decode-optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] FlashAttention: IO-aware 타일링으로 어텐션 연산을 가속하는 원리GPU 메모리 계층을 고려한 타일링 기법으로 어텐션 연산의 IO 병목을 해결하는 FlashAttention의 vLLM 통합 구조를 분석한다.#vllm#flash-attention#gpu-optimization#attention2026년 4월 7일댓글 수 로딩 중
[vLLM] Chunked Prefill: 긴 프롬프트를 청크 단위로 분할 처리하는 기법긴 프롬프트가 디코딩 요청을 기아(starvation) 상태에 빠뜨리는 문제를 해결하는 Chunked Prefill의 구현을 분석한다.#vllm#chunked-prefill#scheduler#latency2026년 4월 7일댓글 수 로딩 중
[vLLM] Continuous Batching: 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭전통적인 static batching의 한계를 넘어 요청 단위로 동적 스케줄링하는 Continuous Batching의 구현을 vLLM 스케줄러 코드로 분석한다.#vllm#continuous-batching#scheduler#serving2026년 4월 7일댓글 수 로딩 중
[vLLM] PagedAttention: OS 페이징 기법으로 KV 캐시를 관리하는 방법운영체제의 가상 메모리 페이징 기법을 KV 캐시 관리에 적용한 PagedAttention의 핵심 구조를 vLLM 코드와 함께 분석한다.#vllm#paged-attention#kv-cache#memory-management2026년 4월 7일댓글 수 로딩 중
[vLLM] 프로젝트 전체 아키텍처 분석 - 개요 및 목차vLLM의 전체 아키텍처를 11개 계층으로 분석하고, 80+ 핵심 로직과 40+ 관련 논문을 정리한 시리즈의 개요 포스트#vllm#Architecture#LLM Inference2026년 4월 7일댓글 수 로딩 중
[vllm] DFlash - Block Diffusion 기반 Speculative DecodingDFlash 알고리즘을 vLLM에 통합하여 GSM8k에서 acceptance length 6.54를 달성하는 고효율 추론 가속#vllm#Performance2026년 3월 30일댓글 수 로딩 중
[vllm] Thinking Token Hard Limit - 추론 토큰 수 제한으로 리소스 제어reasoning 모델의 thinking token에 hard limit을 설정하여 과도한 연산 소비를 방지하고 예측 가능한 서빙#vllm#Performance2026년 3월 24일댓글 수 로딩 중
[vllm] ViT Full CUDA Graph - 비전 인코더 CUDA Graph 완전 지원EncoderCudaGraphManager를 도입하여 ViT 인코더의 CUDA Graph 캡처/리플레이를 구현, 비전 모델 추론 가속#vllm#Performance2026년 3월 23일댓글 수 로딩 중
[vllm] FlashInfer MoE A2A Kernel - NVLink 기반 Expert Parallelism 통신FlashInfer의 NVLink two-sided/one-sided All-to-All 커널을 통합하여 MoE 모델의 expert parallel 통신 가속#vllm#Performance2026년 3월 16일댓글 수 로딩 중
[vllm] NGram GPU 구현 - 비동기 스케줄러 호환 GPU 기반 N-gram DraftingN-gram speculative decoding을 GPU에서 실행하여 CPU-GPU 동기화 오버헤드를 제거하고 비동기 스케줄링과 호환#vllm#Performance2026년 3월 7일댓글 수 로딩 중
[vllm] --performance-mode: 워크로드별 최적화 프로파일balanced, interactivity, throughput 3가지 모드로 CUDA Graph 캡처 전략과 배칭 동작을 자동 조정#vllm#Performance2026년 2월 26일댓글 수 로딩 중
[vllm] Decode Context Parallel - GPU Model Runner V2용 디코드 단계 컨텍스트 병렬화디코드 단계에서 긴 컨텍스트의 KV cache를 여러 GPU에 분산하여 메모리 효율과 throughput을 동시 개선#vllm#Performance2026년 2월 18일댓글 수 로딩 중
[vllm] Unified Parallel Drafting - Speculative Decoding 통합 프레임워크Eagle, NGram, Suffix 등 다양한 spec decode 방식을 하나의 병렬 drafting 프레임워크로 통합#vllm#Performance2026년 2월 5일댓글 수 로딩 중
[vllm] Draft Model 기반 Speculative Decoding 지원별도의 소형 draft 모델을 활용한 speculative decoding을 vLLM V1 엔진에 공식 통합#vllm#Performance2026년 1월 19일댓글 수 로딩 중
[vllm] MORI KV Connector - ROCm 기반 Prefill-Decode DisaggregationROCm 플랫폼에서 MORI 라이브러리를 활용한 KV cache 전송 커넥터로 PD disaggregation 지원#vllm#Performance2026년 1월 9일댓글 수 로딩 중
[vllm] gRPC Server Entrypoint - 고성능 gRPC 서빙 지원vLLM에 gRPC 서버 엔트리포인트를 추가하여 REST API 대비 낮은 latency와 높은 throughput의 통신 제공#vllm#Performance2026년 1월 8일댓글 수 로딩 중
[vllm] 비동기 스케줄링 기본 활성화로 GPU 유휴 시간 제거async scheduling을 기본값으로 전환하여 스케줄링과 GPU 실행의 파이프라이닝을 통한 throughput 향상#vllm#Performance2025년 12월 29일댓글 수 로딩 중
[vllm] --max-model-len auto: GPU 메모리에 맞춘 자동 컨텍스트 길이 설정max-model-len을 auto(-1)로 설정하면 사용 가능한 GPU 메모리에 맞춰 최대 컨텍스트 길이를 자동 결정#vllm#Performance2025년 12월 24일댓글 수 로딩 중
[vllm] group_topk 커널 최적화 - 1.9% Throughput, 2.1% TPOT 개선MoE 라우팅의 group_topk CUDA 커널을 템플릿 기반으로 최적화하여 분기 제거와 루프 언롤링 적용#vllm#Performance2025년 12월 9일댓글 수 로딩 중
[vllm] xxHash로 Prefix Caching 해싱 성능 가속고성능 해시 함수 xxHash를 도입하여 prefix caching의 블록 해시 계산 속도를 대폭 개선#vllm#Performance2025년 12월 3일댓글 수 로딩 중
[vllm] W4A8 Marlin 커널 - 4비트 가중치 + 8비트 활성화 양자화Marlin 커널에 W4A8 지원을 추가하여 4비트 가중치와 8비트 활성화의 혼합 정밀도 추론 가능#vllm#Performance2025년 11월 29일댓글 수 로딩 중
[vllm] GPU Model Runner V2 - 차세대 모델 실행 엔진vLLM의 GPU 모델 러너를 V2로 재설계하여 비동기 처리, 메모리 관리, 스케줄링 효율을 대폭 개선#vllm#Performance2025년 11월 21일댓글 수 로딩 중
[vllm] MP Executor로 멀티 노드 분산 추론 지원MultiprocExecutor를 확장하여 멀티 노드 환경에서의 텐서/파이프라인 병렬 추론을 V1 엔진에서 지원#vllm#Performance2025년 11월 16일댓글 수 로딩 중
[vllm] ROCm Sleep Mode - AMD GPU 전력 절약 모드 이식CUDA의 투명 sleep mode를 ROCm/HIP으로 이식하여 AMD GPU에서도 유휴 시 전력 절약 가능#vllm#Performance2025년 11월 12일댓글 수 로딩 중
[vllm] Encoder 분리 - Encode-Prefill-Decode Disaggregation멀티모달 모델의 인코더를 분리하여 Encode, Prefill, Decode를 독립적으로 스케일링하는 disaggregation 아키텍처#vllm#Performance2025년 11월 12일댓글 수 로딩 중
[vllm] ROCm AITER MHA 백엔드 재설계AMD GPU용 AITER MHA 어텐션 백엔드를 재설계하여 cache 레이아웃 변환과 컨텍스트 병렬 처리를 개선#vllm#Performance2025년 11월 4일댓글 수 로딩 중
[vllm] Suffix Decoding - Arctic Inference의 접미사 매칭 기반 Spec DecodeArctic Inference의 Suffix Decoding을 통합하여 이전 출력의 접미사 패턴을 활용한 speculative decoding#vllm#Performance2025년 11월 3일댓글 수 로딩 중
[vllm] torch.compile로 Qwen Vision 모델 속도 향상generic nn.Module에서 supports_torch_compile을 활성화하여 Qwen2.5-VL 등 비전 모델의 torch.compile 호환성 확보#vllm#Performance2025년 10월 28일댓글 수 로딩 중