[vLLM] Sampling Parameters: 전체 샘플링 파라미터 정리vLLM의 SamplingParams 클래스를 완전히 해부한다. temperature, top_p, top_k부터 structured_outputs, repetition_detection까지 전체 파라미터.#vllm#sampling#parameters#structured-output#inference2026년 4월 8일댓글 수 로딩 중
[vLLM] Shared Experts: 공유 전문가 레이어 (DeepSeek-V2/V3)vLLM의 공유 전문가(Shared Expert) 구현을 분석한다. DeepSeek-V2/V3의 공유 전문가와 라우팅 전문가를 동시에 실행하는 구조.#vllm#moe#shared-experts#deepseek2026년 4월 8일댓글 수 로딩 중
[vLLM] MoE Oracle & Prepare/Finalize: 백엔드 선택과 분산 데이터 교환vLLM MoE의 Oracle 시스템(백엔드 자동 선택)과 Prepare/Finalize 패턴(분산 데이터 교환)을 분석한다.#vllm#moe#oracle#deepep#expert-parallelism2026년 4월 7일댓글 수 로딩 중
[vLLM] MoE 라우팅 전략: 7종 라우팅 알고리즘 분석vLLM의 MoE 라우터 구현을 분석한다. FusedTopK, GroupedTopK, BiasRouter, CustomRouting, RoutingSimulator까지 7가지 라우팅 전략.#vllm#moe#routing#deepseek#expert-selection2026년 4월 7일댓글 수 로딩 중
[vLLM] 기타 양자화: FP8, ModelOpt, INC, TorchAO, QuarkvLLM이 지원하는 다양한 양자화 방식을 총정리한다. 온라인 FP8, NVIDIA ModelOpt, Intel Neural Compressor, TorchAO, AMD Quark까지.#vllm#quantization#fp8#modelopt#torchao#quark#inc2026년 4월 7일댓글 수 로딩 중
[vLLM] Compressed Tensors: 양자화+희소성 통합 프레임워크Neural Magic의 Compressed Tensors 프레임워크가 vLLM에서 어떻게 통합되는지 분석한다. W8A8, W4A16, 2:4 희소성까지 하나의 추상화로 처리하는 구조.#vllm#quantization#compressed-tensors#sparsity#neural-magic2026년 4월 7일댓글 수 로딩 중
[vLLM] GGUF: llama.cpp 양자화 포맷 지원vLLM에서 llama.cpp의 GGUF 양자화 포맷을 어떻게 지원하는지 분석한다. Q4_0부터 IQ4_XS까지의 양자화 타입별 커널 전략.#vllm#quantization#gguf#llama-cpp2026년 4월 7일댓글 수 로딩 중
[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.#vllm#quantization#marlin#gptq#gemm2026년 4월 7일댓글 수 로딩 중
[vLLM] BitsAndBytes (QLoRA): 4비트 NormalFloat 양자화vLLM에서 BitsAndBytes 양자화가 어떻게 통합되어 있는지 분석한다. 4비트/8비트 양자화의 내부 구현과 MoE 지원.#vllm#quantization#bitsandbytes#qlora#nf42026년 4월 7일댓글 수 로딩 중
[vLLM] MXFP8/MXFP4: 마이크로스케일링 포맷 양자화vLLM의 MXFP8/MXFP4 마이크로스케일링 양자화 구현을 분석한다. Block-32 단위 스케일링의 핵심 구조와 MoE 지원까지.#vllm#quantization#mxfp8#mxfp4#microscaling2026년 4월 7일댓글 수 로딩 중
[vLLM] Pipeline Parallelism: 파이프라인 병렬화vLLM이 파이프라인 병렬화를 구현하여 대규모 모델을 여러 GPU에 분산하는 방식을 분석한다.#vllm#pipeline-parallelism#distributed#gpu2026년 4월 7일댓글 수 로딩 중
[vLLM] Model Loader: 모델 가중치 로딩vLLM이 다양한 포맷의 모델 가중치를 로딩하는 DefaultModelLoader의 내부 동작을 분석한다.#vllm#model-loading#safetensors#quantization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPU Worker & InputBatchvLLM의 GPU Worker가 모델을 로딩하고 실행하는 과정과 InputBatch의 GPU 텐서 관리를 분석한다.#vllm#gpu-worker#cuda#memory-management2026년 4월 7일댓글 수 로딩 중
[vLLM] Executor 아키텍처: UniProc, Multiproc, RayvLLM v1의 Executor 추상화가 단일 GPU부터 다중 노드까지 실행 환경을 통합하는 방식을 분석한다.#vllm#executor#distributed#ray#multiprocessing2026년 4월 7일댓글 수 로딩 중
[vLLM] Renderer & Tokenizer: 모델별 입력 파이프라인vLLM의 Renderer와 Tokenizer 레지스트리가 다양한 모델의 입력 형식을 처리하는 구조를 분석한다.#vllm#tokenizer#renderer#multimodal2026년 4월 7일댓글 수 로딩 중
[vLLM] OutputProcessor: 출력 후처리 및 디토크나이징vLLM의 OutputProcessor가 엔진 출력을 사용자에게 전달 가능한 형태로 변환하는 과정을 분석한다.#vllm#output-processing#detokenization#streaming2026년 4월 7일댓글 수 로딩 중
[vLLM] InputProcessor: 입력 전처리 파이프라인vLLM v1 엔진의 InputProcessor가 사용자 프롬프트를 EngineCoreRequest로 변환하는 전체 파이프라인을 분석한다.#vllm#input-processing#tokenization#multimodal2026년 4월 7일댓글 수 로딩 중
[vLLM] Pooling Tasks: 임베딩, 분류, 스코어링vLLM이 생성 태스크 외에 임베딩, 분류, 스코어링을 지원하는 Pooling 시스템의 구조를 분석한다.#vllm#embedding#pooling#classification2026년 4월 7일댓글 수 로딩 중
[vLLM] 오프라인 LLM API: 배치 추론 Python APIvLLM의 LLM 클래스를 통한 오프라인 배치 추론 API의 내부 구조를 분석한다.#vllm#offline-inference#batch-processing#python-api2026년 4월 7일댓글 수 로딩 중
[vLLM] OpenAI 호환 API 서버: FastAPI 기반 HTTP 서빙vLLM이 OpenAI API와 호환되는 HTTP 서버를 FastAPI로 구축하는 방법을 코드 레벨에서 분석한다.#vllm#openai#fastapi#serving2026년 4월 7일댓글 수 로딩 중