[vLLM] Compilation Fusion Passes: 컴파일 퓨전 최적화vLLM의 torch.compile 기반 커널 퓨전 패스를 분석한다. RMSNorm+Quantization 퓨전, 패턴 매칭 기반 최적화의 구현을 살펴본다.#vllm#compilation#fusion#torch-compile#optimization2026년 4월 8일댓글 수 로딩 중
[vLLM] Model Weight Offloading: 가중치 CPU 오프로딩vLLM의 모델 가중치 CPU 오프로딩 시스템을 분석한다. UVA 오프로딩과 Prefetch 오프로딩, 두 가지 전략의 구현 차이를 코드 레벨에서 살펴본다.#vllm#offloading#memory-management#prefetch2026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.#vllm#kv-cache#quantization#fp82026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Offloading: GPU에서 CPU로의 KV 캐시 오프로딩vLLM v1의 KV 캐시 CPU 오프로딩 시스템을 분석한다. OffloadingManager 추상화, LRU/ARC 캐시 정책, 블록 레벨 관리의 설계를 살펴본다.#vllm#kv-cache#offloading#memory-management2026년 4월 8일댓글 수 로딩 중
[vLLM] MTP & DFlash: 다중 토큰 예측과 Flash 기반 드래프팅vLLM의 DFlash 투기적 디코딩 구현을 분석한다. 다중 토큰 예측(MTP)을 Flash Attention 기반으로 구현한 DFlashProposer의 핵심 로직을 살펴본다.#vllm#speculative-decoding#mtp#dflash#flash-attention2026년 4월 8일댓글 수 로딩 중
[vLLM] Beam Search: 빔 서치 디코딩 구현 분석vLLM의 빔 서치 디코딩 구현을 분석한다. BeamSearchSequence, 스코어링, length penalty 로직을 코드 레벨에서 살펴본다.#vllm#beam-search#decoding#inference2026년 4월 8일댓글 수 로딩 중
[vLLM] Sampling Parameters: 전체 샘플링 파라미터 정리vLLM의 SamplingParams 클래스를 완전히 해부한다. temperature, top_p, top_k부터 structured_outputs, repetition_detection까지 전체 파라미터.#vllm#sampling#parameters#structured-output#inference2026년 4월 8일댓글 수 로딩 중
[vLLM] Shared Experts: 공유 전문가 레이어 (DeepSeek-V2/V3)vLLM의 공유 전문가(Shared Expert) 구현을 분석한다. DeepSeek-V2/V3의 공유 전문가와 라우팅 전문가를 동시에 실행하는 구조.#vllm#moe#shared-experts#deepseek2026년 4월 8일댓글 수 로딩 중
[vLLM] MoE Oracle & Prepare/Finalize: 백엔드 선택과 분산 데이터 교환vLLM MoE의 Oracle 시스템(백엔드 자동 선택)과 Prepare/Finalize 패턴(분산 데이터 교환)을 분석한다.#vllm#moe#oracle#deepep#expert-parallelism2026년 4월 7일댓글 수 로딩 중
[vLLM] MoE 라우팅 전략: 7종 라우팅 알고리즘 분석vLLM의 MoE 라우터 구현을 분석한다. FusedTopK, GroupedTopK, BiasRouter, CustomRouting, RoutingSimulator까지 7가지 라우팅 전략.#vllm#moe#routing#deepseek#expert-selection2026년 4월 7일댓글 수 로딩 중
[vLLM] 기타 양자화: FP8, ModelOpt, INC, TorchAO, QuarkvLLM이 지원하는 다양한 양자화 방식을 총정리한다. 온라인 FP8, NVIDIA ModelOpt, Intel Neural Compressor, TorchAO, AMD Quark까지.#vllm#quantization#fp8#modelopt#torchao#quark#inc2026년 4월 7일댓글 수 로딩 중
[vLLM] Compressed Tensors: 양자화+희소성 통합 프레임워크Neural Magic의 Compressed Tensors 프레임워크가 vLLM에서 어떻게 통합되는지 분석한다. W8A8, W4A16, 2:4 희소성까지 하나의 추상화로 처리하는 구조.#vllm#quantization#compressed-tensors#sparsity#neural-magic2026년 4월 7일댓글 수 로딩 중
[vLLM] GGUF: llama.cpp 양자화 포맷 지원vLLM에서 llama.cpp의 GGUF 양자화 포맷을 어떻게 지원하는지 분석한다. Q4_0부터 IQ4_XS까지의 양자화 타입별 커널 전략.#vllm#quantization#gguf#llama-cpp2026년 4월 7일댓글 수 로딩 중
[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.#vllm#quantization#marlin#gptq#gemm2026년 4월 7일댓글 수 로딩 중
[vLLM] BitsAndBytes (QLoRA): 4비트 NormalFloat 양자화vLLM에서 BitsAndBytes 양자화가 어떻게 통합되어 있는지 분석한다. 4비트/8비트 양자화의 내부 구현과 MoE 지원.#vllm#quantization#bitsandbytes#qlora#nf42026년 4월 7일댓글 수 로딩 중
[vLLM] MXFP8/MXFP4: 마이크로스케일링 포맷 양자화vLLM의 MXFP8/MXFP4 마이크로스케일링 양자화 구현을 분석한다. Block-32 단위 스케일링의 핵심 구조와 MoE 지원까지.#vllm#quantization#mxfp8#mxfp4#microscaling2026년 4월 7일댓글 수 로딩 중
[vLLM] Pipeline Parallelism: 파이프라인 병렬화vLLM이 파이프라인 병렬화를 구현하여 대규모 모델을 여러 GPU에 분산하는 방식을 분석한다.#vllm#pipeline-parallelism#distributed#gpu2026년 4월 7일댓글 수 로딩 중
[vLLM] Model Loader: 모델 가중치 로딩vLLM이 다양한 포맷의 모델 가중치를 로딩하는 DefaultModelLoader의 내부 동작을 분석한다.#vllm#model-loading#safetensors#quantization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPU Worker & InputBatchvLLM의 GPU Worker가 모델을 로딩하고 실행하는 과정과 InputBatch의 GPU 텐서 관리를 분석한다.#vllm#gpu-worker#cuda#memory-management2026년 4월 7일댓글 수 로딩 중
[vLLM] Executor 아키텍처: UniProc, Multiproc, RayvLLM v1의 Executor 추상화가 단일 GPU부터 다중 노드까지 실행 환경을 통합하는 방식을 분석한다.#vllm#executor#distributed#ray#multiprocessing2026년 4월 7일댓글 수 로딩 중