vLLM

[vLLM] Speech-to-Text: 음성 인식 API

vLLM의 Speech-to-Text(STT) API 구현을 분석한다. OpenAI 호환 Transcription/Translation 엔드포인트, 스트리밍 처리, Whisper 모델 통합을 살펴본다.

#vllm #speech-to-text #whisper #openai-api #audio

2026년 4월 8일

[vLLM] CPU/XPU Worker: 비NVIDIA 하드웨어 워커

vLLM의 CPU 워커 구현을 분석한다. GPU Worker를 상속하면서 CPU 특화 초기화, 라이브러리 사전 로딩 검증, Sleep Mode 비활성화를 살펴본다.

#vllm #cpu #worker #hardware

2026년 4월 8일

[vLLM] Warmup: 커널 JIT 사전 컴파일

vLLM의 워밍업 시스템을 분석한다. Deep GEMM, FlashInfer 오토튜닝, 어텐션 커널 사전 워밍업으로 JIT 컴파일 지연을 제거하는 전략을 살펴본다.

#vllm #warmup #jit #deep-gemm #flashinfer

2026년 4월 8일

[vLLM] Tree Attention: 투기적 디코딩용 트리 어텐션

vLLM의 Tree Attention 백엔드를 분석한다. 투기적 디코딩의 트리 구조 토큰 검증을 위한 어텐션 마스크 생성과 Triton 기반 통합 어텐션을 살펴본다.

#vllm #tree-attention #speculative-decoding #triton

2026년 4월 8일

[vLLM] 기타 Model Layers: Pooler, Resampler, Vocab Parallel Embedding 등

vLLM의 핵심 모델 레이어들을 분석한다. VocabParallelEmbedding의 텐서 병렬 분할, Resampler의 멀티모달 처리, Pooler의 추상화를 살펴본다.

#vllm #model-layers #embedding #pooler #tensor-parallel

2026년 4월 8일

[vLLM] 기타 Attention Backends: GDN, Flex, Triton, DiffKV, MLA Sparse, CPU/ROCm

vLLM의 다양한 어텐션 백엔드를 분석한다. GatedDeltaNet, FlexAttention, Triton, DiffKV, MLA Sparse, ROCm AIter 등의 구현 특징을 살펴본다.

#vllm #attention #backends #triton #rocm

2026년 4월 8일

[vLLM] Lightning & Linear Attention: 선형 어텐션 구현

vLLM의 선형 어텐션 백엔드와 Lightning Attention 구현을 분석한다. SSM 스타일 상태 관리, Triton 커널 기반 diagonal block 연산을 살펴본다.

#vllm #linear-attention #lightning-attention #ssm #triton

2026년 4월 8일

[vLLM] KV Cache Coordinator: 하이브리드 KV 캐시 조율

vLLM의 KV 캐시 코디네이터를 분석한다. Unitary, Hybrid, NoPrefixCache 세 가지 코디네이터와 하이브리드 어텐션 모델의 캐시 히트 탐색 알고리즘을 살펴본다.

#vllm #kv-cache #prefix-caching #hybrid-attention

2026년 4월 8일

[vLLM] Preemption & Async Scheduling: 선점과 비동기 스케줄링

vLLM v1 스케줄러의 선점 메커니즘과 비동기 스케줄링을 분석한다. waiting/running 큐 관리, KV 커넥터 통합, 멀티모달 예산 관리를 살펴본다.

#vllm #scheduler #preemption #async #memory-management

2026년 4월 8일

[vLLM] Plugin & Hardware: 플러그인 시스템과 하드웨어 플랫폼

vLLM의 플러그인 시스템과 하드웨어 플랫폼 추상화를 분석한다. entry_points 기반 플러그인 발견, 자동 플랫폼 감지의 구현을 살펴본다.

#vllm #plugins #hardware #platform #extensibility

2026년 4월 8일

[vLLM] Observability: 추적, 프로파일링, 메트릭

vLLM의 관측 가능성 시스템을 분석한다. OpenTelemetry 기반 추적, 프로세스 간 트레이스 전파, 사용량 수집의 구현을 살펴본다.

#vllm #observability #opentelemetry #tracing #profiling

2026년 4월 8일

[vLLM] Sleep Mode: GPU 메모리 동적 관리

vLLM의 Sleep Mode를 구현하는 CuMemAllocator를 분석한다. PyTorch pluggable allocator를 활용한 GPU 메모리 오프로딩과 복원 메커니즘을 살펴본다.

#vllm #sleep-mode #memory-management #cuda #gpu

2026년 4월 8일

[vLLM] Multimodal: Vision, Audio, Video 처리 파이프라인

vLLM의 멀티모달 처리 시스템을 분석한다. MultiModalRegistry, 프로세서 팩토리 패턴, 캐싱 전략의 구현을 살펴본다.

#vllm #multimodal #vision #audio #video

2026년 4월 8일

[vLLM] Reasoning & Tool Calling: 추론 파서와 도구 호출 파서

vLLM의 추론 콘텐츠 파서(ReasoningParser)와 도구 호출 파서(ToolParser) 시스템을 분석한다. 20개 이상의 모델별 파서를 통합하는 레지스트리 패턴을 살펴본다.

#vllm #reasoning #tool-calling #function-calling #openai-api

2026년 4월 8일

[vLLM] Compilation Fusion Passes: 컴파일 퓨전 최적화

vLLM의 torch.compile 기반 커널 퓨전 패스를 분석한다. RMSNorm+Quantization 퓨전, 패턴 매칭 기반 최적화의 구현을 살펴본다.

#vllm #compilation #fusion #torch-compile #optimization

2026년 4월 8일

[vLLM] Model Weight Offloading: 가중치 CPU 오프로딩

vLLM의 모델 가중치 CPU 오프로딩 시스템을 분석한다. UVA 오프로딩과 Prefetch 오프로딩, 두 가지 전략의 구현 차이를 코드 레벨에서 살펴본다.

#vllm #offloading #memory-management #prefetch

2026년 4월 8일

[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화

vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.

#vllm #kv-cache #quantization #fp8

2026년 4월 8일

[vLLM] KV Cache Offloading: GPU에서 CPU로의 KV 캐시 오프로딩

vLLM v1의 KV 캐시 CPU 오프로딩 시스템을 분석한다. OffloadingManager 추상화, LRU/ARC 캐시 정책, 블록 레벨 관리의 설계를 살펴본다.

#vllm #kv-cache #offloading #memory-management

2026년 4월 8일

[vLLM] MTP & DFlash: 다중 토큰 예측과 Flash 기반 드래프팅

vLLM의 DFlash 투기적 디코딩 구현을 분석한다. 다중 토큰 예측(MTP)을 Flash Attention 기반으로 구현한 DFlashProposer의 핵심 로직을 살펴본다.

#vllm #speculative-decoding #mtp #dflash #flash-attention

2026년 4월 8일

[vLLM] Beam Search: 빔 서치 디코딩 구현 분석

vLLM의 빔 서치 디코딩 구현을 분석한다. BeamSearchSequence, 스코어링, length penalty 로직을 코드 레벨에서 살펴본다.

#vllm #beam-search #decoding #inference

2026년 4월 8일