최신 포스트

[vLLM] Plugin & Hardware: 플러그인 시스템과 하드웨어 플랫폼

vLLM의 플러그인 시스템과 하드웨어 플랫폼 추상화를 분석한다. entry_points 기반 플러그인 발견, 자동 플랫폼 감지의 구현을 살펴본다.

#vllm #plugins #hardware #platform #extensibility

2026년 4월 8일

[vLLM] Observability: 추적, 프로파일링, 메트릭

vLLM의 관측 가능성 시스템을 분석한다. OpenTelemetry 기반 추적, 프로세스 간 트레이스 전파, 사용량 수집의 구현을 살펴본다.

#vllm #observability #opentelemetry #tracing #profiling

2026년 4월 8일

[vLLM] Sleep Mode: GPU 메모리 동적 관리

vLLM의 Sleep Mode를 구현하는 CuMemAllocator를 분석한다. PyTorch pluggable allocator를 활용한 GPU 메모리 오프로딩과 복원 메커니즘을 살펴본다.

#vllm #sleep-mode #memory-management #cuda #gpu

2026년 4월 8일

[vLLM] Multimodal: Vision, Audio, Video 처리 파이프라인

vLLM의 멀티모달 처리 시스템을 분석한다. MultiModalRegistry, 프로세서 팩토리 패턴, 캐싱 전략의 구현을 살펴본다.

#vllm #multimodal #vision #audio #video

2026년 4월 8일

[vLLM] Reasoning & Tool Calling: 추론 파서와 도구 호출 파서

vLLM의 추론 콘텐츠 파서(ReasoningParser)와 도구 호출 파서(ToolParser) 시스템을 분석한다. 20개 이상의 모델별 파서를 통합하는 레지스트리 패턴을 살펴본다.

#vllm #reasoning #tool-calling #function-calling #openai-api

2026년 4월 8일

[vLLM] Compilation Fusion Passes: 컴파일 퓨전 최적화

vLLM의 torch.compile 기반 커널 퓨전 패스를 분석한다. RMSNorm+Quantization 퓨전, 패턴 매칭 기반 최적화의 구현을 살펴본다.

#vllm #compilation #fusion #torch-compile #optimization

2026년 4월 8일

[vLLM] Model Weight Offloading: 가중치 CPU 오프로딩

vLLM의 모델 가중치 CPU 오프로딩 시스템을 분석한다. UVA 오프로딩과 Prefetch 오프로딩, 두 가지 전략의 구현 차이를 코드 레벨에서 살펴본다.

#vllm #offloading #memory-management #prefetch

2026년 4월 8일

[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화

vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.

#vllm #kv-cache #quantization #fp8

2026년 4월 8일

[vLLM] KV Cache Offloading: GPU에서 CPU로의 KV 캐시 오프로딩

vLLM v1의 KV 캐시 CPU 오프로딩 시스템을 분석한다. OffloadingManager 추상화, LRU/ARC 캐시 정책, 블록 레벨 관리의 설계를 살펴본다.

#vllm #kv-cache #offloading #memory-management

2026년 4월 8일

[vLLM] MTP & DFlash: 다중 토큰 예측과 Flash 기반 드래프팅

vLLM의 DFlash 투기적 디코딩 구현을 분석한다. 다중 토큰 예측(MTP)을 Flash Attention 기반으로 구현한 DFlashProposer의 핵심 로직을 살펴본다.

#vllm #speculative-decoding #mtp #dflash #flash-attention

2026년 4월 8일

[vLLM] Beam Search: 빔 서치 디코딩 구현 분석

vLLM의 빔 서치 디코딩 구현을 분석한다. BeamSearchSequence, 스코어링, length penalty 로직을 코드 레벨에서 살펴본다.

#vllm #beam-search #decoding #inference

2026년 4월 8일

[vLLM] Sampling Parameters: 전체 샘플링 파라미터 정리

vLLM의 SamplingParams 클래스를 완전히 해부한다. temperature, top_p, top_k부터 structured_outputs, repetition_detection까지 전체 파라미터.

#vllm #sampling #parameters #structured-output #inference

2026년 4월 8일

[vLLM] Shared Experts: 공유 전문가 레이어 (DeepSeek-V2/V3)

vLLM의 공유 전문가(Shared Expert) 구현을 분석한다. DeepSeek-V2/V3의 공유 전문가와 라우팅 전문가를 동시에 실행하는 구조.

#vllm #moe #shared-experts #deepseek

2026년 4월 8일

[vLLM] MoE Oracle & Prepare/Finalize: 백엔드 선택과 분산 데이터 교환

vLLM MoE의 Oracle 시스템(백엔드 자동 선택)과 Prepare/Finalize 패턴(분산 데이터 교환)을 분석한다.

#vllm #moe #oracle #deepep #expert-parallelism

2026년 4월 7일

[vLLM] MoE 라우팅 전략: 7종 라우팅 알고리즘 분석

vLLM의 MoE 라우터 구현을 분석한다. FusedTopK, GroupedTopK, BiasRouter, CustomRouting, RoutingSimulator까지 7가지 라우팅 전략.

#vllm #moe #routing #deepseek #expert-selection

2026년 4월 7일

[vLLM] 기타 양자화: FP8, ModelOpt, INC, TorchAO, Quark

vLLM이 지원하는 다양한 양자화 방식을 총정리한다. 온라인 FP8, NVIDIA ModelOpt, Intel Neural Compressor, TorchAO, AMD Quark까지.

#vllm #quantization #fp8 #modelopt #torchao #quark #inc

2026년 4월 7일

[vLLM] Compressed Tensors: 양자화+희소성 통합 프레임워크

Neural Magic의 Compressed Tensors 프레임워크가 vLLM에서 어떻게 통합되는지 분석한다. W8A8, W4A16, 2:4 희소성까지 하나의 추상화로 처리하는 구조.

#vllm #quantization #compressed-tensors #sparsity #neural-magic

2026년 4월 7일

[vLLM] GGUF: llama.cpp 양자화 포맷 지원

vLLM에서 llama.cpp의 GGUF 양자화 포맷을 어떻게 지원하는지 분석한다. Q4_0부터 IQ4_XS까지의 양자화 타입별 커널 전략.

#vllm #quantization #gguf #llama-cpp

2026년 4월 7일

[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널

vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.

#vllm #quantization #marlin #gptq #gemm

2026년 4월 7일

[vLLM] BitsAndBytes (QLoRA): 4비트 NormalFloat 양자화

vLLM에서 BitsAndBytes 양자화가 어떻게 통합되어 있는지 분석한다. 4비트/8비트 양자화의 내부 구현과 MoE 지원.

#vllm #quantization #bitsandbytes #qlora #nf4

2026년 4월 7일