vLLM

[vLLM] Sampling Parameters: 전체 샘플링 파라미터 정리

vLLM의 SamplingParams 클래스를 완전히 해부한다. temperature, top_p, top_k부터 structured_outputs, repetition_detection까지 전체 파라미터.

#vllm #sampling #parameters #structured-output #inference

2026년 4월 8일

[vLLM] Shared Experts: 공유 전문가 레이어 (DeepSeek-V2/V3)

vLLM의 공유 전문가(Shared Expert) 구현을 분석한다. DeepSeek-V2/V3의 공유 전문가와 라우팅 전문가를 동시에 실행하는 구조.

#vllm #moe #shared-experts #deepseek

2026년 4월 8일

[vLLM] MoE Oracle & Prepare/Finalize: 백엔드 선택과 분산 데이터 교환

vLLM MoE의 Oracle 시스템(백엔드 자동 선택)과 Prepare/Finalize 패턴(분산 데이터 교환)을 분석한다.

#vllm #moe #oracle #deepep #expert-parallelism

2026년 4월 7일

[vLLM] MoE 라우팅 전략: 7종 라우팅 알고리즘 분석

vLLM의 MoE 라우터 구현을 분석한다. FusedTopK, GroupedTopK, BiasRouter, CustomRouting, RoutingSimulator까지 7가지 라우팅 전략.

#vllm #moe #routing #deepseek #expert-selection

2026년 4월 7일

[vLLM] 기타 양자화: FP8, ModelOpt, INC, TorchAO, Quark

vLLM이 지원하는 다양한 양자화 방식을 총정리한다. 온라인 FP8, NVIDIA ModelOpt, Intel Neural Compressor, TorchAO, AMD Quark까지.

#vllm #quantization #fp8 #modelopt #torchao #quark #inc

2026년 4월 7일

[vLLM] Compressed Tensors: 양자화+희소성 통합 프레임워크

Neural Magic의 Compressed Tensors 프레임워크가 vLLM에서 어떻게 통합되는지 분석한다. W8A8, W4A16, 2:4 희소성까지 하나의 추상화로 처리하는 구조.

#vllm #quantization #compressed-tensors #sparsity #neural-magic

2026년 4월 7일

[vLLM] GGUF: llama.cpp 양자화 포맷 지원

vLLM에서 llama.cpp의 GGUF 양자화 포맷을 어떻게 지원하는지 분석한다. Q4_0부터 IQ4_XS까지의 양자화 타입별 커널 전략.

#vllm #quantization #gguf #llama-cpp

2026년 4월 7일

[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널

vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.

#vllm #quantization #marlin #gptq #gemm

2026년 4월 7일

[vLLM] BitsAndBytes (QLoRA): 4비트 NormalFloat 양자화

vLLM에서 BitsAndBytes 양자화가 어떻게 통합되어 있는지 분석한다. 4비트/8비트 양자화의 내부 구현과 MoE 지원.

#vllm #quantization #bitsandbytes #qlora #nf4

2026년 4월 7일

[vLLM] MXFP8/MXFP4: 마이크로스케일링 포맷 양자화

vLLM의 MXFP8/MXFP4 마이크로스케일링 양자화 구현을 분석한다. Block-32 단위 스케일링의 핵심 구조와 MoE 지원까지.

#vllm #quantization #mxfp8 #mxfp4 #microscaling

2026년 4월 7일

[vLLM] Pipeline Parallelism: 파이프라인 병렬화

vLLM이 파이프라인 병렬화를 구현하여 대규모 모델을 여러 GPU에 분산하는 방식을 분석한다.

#vllm #pipeline-parallelism #distributed #gpu

2026년 4월 7일

[vLLM] Model Loader: 모델 가중치 로딩

vLLM이 다양한 포맷의 모델 가중치를 로딩하는 DefaultModelLoader의 내부 동작을 분석한다.

#vllm #model-loading #safetensors #quantization

2026년 4월 7일

[vLLM] GPU Worker & InputBatch

vLLM의 GPU Worker가 모델을 로딩하고 실행하는 과정과 InputBatch의 GPU 텐서 관리를 분석한다.

#vllm #gpu-worker #cuda #memory-management

2026년 4월 7일

[vLLM] Executor 아키텍처: UniProc, Multiproc, Ray

vLLM v1의 Executor 추상화가 단일 GPU부터 다중 노드까지 실행 환경을 통합하는 방식을 분석한다.

#vllm #executor #distributed #ray #multiprocessing

2026년 4월 7일

[vLLM] Renderer & Tokenizer: 모델별 입력 파이프라인

vLLM의 Renderer와 Tokenizer 레지스트리가 다양한 모델의 입력 형식을 처리하는 구조를 분석한다.

#vllm #tokenizer #renderer #multimodal

2026년 4월 7일

[vLLM] OutputProcessor: 출력 후처리 및 디토크나이징

vLLM의 OutputProcessor가 엔진 출력을 사용자에게 전달 가능한 형태로 변환하는 과정을 분석한다.

#vllm #output-processing #detokenization #streaming

2026년 4월 7일

[vLLM] InputProcessor: 입력 전처리 파이프라인

vLLM v1 엔진의 InputProcessor가 사용자 프롬프트를 EngineCoreRequest로 변환하는 전체 파이프라인을 분석한다.

#vllm #input-processing #tokenization #multimodal

2026년 4월 7일

[vLLM] Pooling Tasks: 임베딩, 분류, 스코어링

vLLM이 생성 태스크 외에 임베딩, 분류, 스코어링을 지원하는 Pooling 시스템의 구조를 분석한다.

#vllm #embedding #pooling #classification

2026년 4월 7일

[vLLM] 오프라인 LLM API: 배치 추론 Python API

vLLM의 LLM 클래스를 통한 오프라인 배치 추론 API의 내부 구조를 분석한다.

#vllm #offline-inference #batch-processing #python-api

2026년 4월 7일

[vLLM] OpenAI 호환 API 서버: FastAPI 기반 HTTP 서빙

vLLM이 OpenAI API와 호환되는 HTTP 서버를 FastAPI로 구축하는 방법을 코드 레벨에서 분석한다.

#vllm #openai #fastapi #serving

2026년 4월 7일