[vLLM] Speech-to-Text: 음성 인식 APIvLLM의 Speech-to-Text(STT) API 구현을 분석한다. OpenAI 호환 Transcription/Translation 엔드포인트, 스트리밍 처리, Whisper 모델 통합을 살펴본다.#vllm#speech-to-text#whisper#openai-api#audio2026년 4월 8일댓글 수 로딩 중
[vLLM] CPU/XPU Worker: 비NVIDIA 하드웨어 워커vLLM의 CPU 워커 구현을 분석한다. GPU Worker를 상속하면서 CPU 특화 초기화, 라이브러리 사전 로딩 검증, Sleep Mode 비활성화를 살펴본다.#vllm#cpu#worker#hardware2026년 4월 8일댓글 수 로딩 중
[vLLM] Warmup: 커널 JIT 사전 컴파일vLLM의 워밍업 시스템을 분석한다. Deep GEMM, FlashInfer 오토튜닝, 어텐션 커널 사전 워밍업으로 JIT 컴파일 지연을 제거하는 전략을 살펴본다.#vllm#warmup#jit#deep-gemm#flashinfer2026년 4월 8일댓글 수 로딩 중
[vLLM] Tree Attention: 투기적 디코딩용 트리 어텐션vLLM의 Tree Attention 백엔드를 분석한다. 투기적 디코딩의 트리 구조 토큰 검증을 위한 어텐션 마스크 생성과 Triton 기반 통합 어텐션을 살펴본다.#vllm#tree-attention#speculative-decoding#triton2026년 4월 8일댓글 수 로딩 중
[vLLM] 기타 Model Layers: Pooler, Resampler, Vocab Parallel Embedding 등vLLM의 핵심 모델 레이어들을 분석한다. VocabParallelEmbedding의 텐서 병렬 분할, Resampler의 멀티모달 처리, Pooler의 추상화를 살펴본다.#vllm#model-layers#embedding#pooler#tensor-parallel2026년 4월 8일댓글 수 로딩 중
[vLLM] 기타 Attention Backends: GDN, Flex, Triton, DiffKV, MLA Sparse, CPU/ROCmvLLM의 다양한 어텐션 백엔드를 분석한다. GatedDeltaNet, FlexAttention, Triton, DiffKV, MLA Sparse, ROCm AIter 등의 구현 특징을 살펴본다.#vllm#attention#backends#triton#rocm2026년 4월 8일댓글 수 로딩 중
[vLLM] Lightning & Linear Attention: 선형 어텐션 구현vLLM의 선형 어텐션 백엔드와 Lightning Attention 구현을 분석한다. SSM 스타일 상태 관리, Triton 커널 기반 diagonal block 연산을 살펴본다.#vllm#linear-attention#lightning-attention#ssm#triton2026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Coordinator: 하이브리드 KV 캐시 조율vLLM의 KV 캐시 코디네이터를 분석한다. Unitary, Hybrid, NoPrefixCache 세 가지 코디네이터와 하이브리드 어텐션 모델의 캐시 히트 탐색 알고리즘을 살펴본다.#vllm#kv-cache#prefix-caching#hybrid-attention2026년 4월 8일댓글 수 로딩 중
[vLLM] Preemption & Async Scheduling: 선점과 비동기 스케줄링vLLM v1 스케줄러의 선점 메커니즘과 비동기 스케줄링을 분석한다. waiting/running 큐 관리, KV 커넥터 통합, 멀티모달 예산 관리를 살펴본다.#vllm#scheduler#preemption#async#memory-management2026년 4월 8일댓글 수 로딩 중
[vLLM] Plugin & Hardware: 플러그인 시스템과 하드웨어 플랫폼vLLM의 플러그인 시스템과 하드웨어 플랫폼 추상화를 분석한다. entry_points 기반 플러그인 발견, 자동 플랫폼 감지의 구현을 살펴본다.#vllm#plugins#hardware#platform#extensibility2026년 4월 8일댓글 수 로딩 중
[vLLM] Observability: 추적, 프로파일링, 메트릭vLLM의 관측 가능성 시스템을 분석한다. OpenTelemetry 기반 추적, 프로세스 간 트레이스 전파, 사용량 수집의 구현을 살펴본다.#vllm#observability#opentelemetry#tracing#profiling2026년 4월 8일댓글 수 로딩 중
[vLLM] Sleep Mode: GPU 메모리 동적 관리vLLM의 Sleep Mode를 구현하는 CuMemAllocator를 분석한다. PyTorch pluggable allocator를 활용한 GPU 메모리 오프로딩과 복원 메커니즘을 살펴본다.#vllm#sleep-mode#memory-management#cuda#gpu2026년 4월 8일댓글 수 로딩 중
[vLLM] Multimodal: Vision, Audio, Video 처리 파이프라인vLLM의 멀티모달 처리 시스템을 분석한다. MultiModalRegistry, 프로세서 팩토리 패턴, 캐싱 전략의 구현을 살펴본다.#vllm#multimodal#vision#audio#video2026년 4월 8일댓글 수 로딩 중
[vLLM] Reasoning & Tool Calling: 추론 파서와 도구 호출 파서vLLM의 추론 콘텐츠 파서(ReasoningParser)와 도구 호출 파서(ToolParser) 시스템을 분석한다. 20개 이상의 모델별 파서를 통합하는 레지스트리 패턴을 살펴본다.#vllm#reasoning#tool-calling#function-calling#openai-api2026년 4월 8일댓글 수 로딩 중
[vLLM] Compilation Fusion Passes: 컴파일 퓨전 최적화vLLM의 torch.compile 기반 커널 퓨전 패스를 분석한다. RMSNorm+Quantization 퓨전, 패턴 매칭 기반 최적화의 구현을 살펴본다.#vllm#compilation#fusion#torch-compile#optimization2026년 4월 8일댓글 수 로딩 중
[vLLM] Model Weight Offloading: 가중치 CPU 오프로딩vLLM의 모델 가중치 CPU 오프로딩 시스템을 분석한다. UVA 오프로딩과 Prefetch 오프로딩, 두 가지 전략의 구현 차이를 코드 레벨에서 살펴본다.#vllm#offloading#memory-management#prefetch2026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.#vllm#kv-cache#quantization#fp82026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Offloading: GPU에서 CPU로의 KV 캐시 오프로딩vLLM v1의 KV 캐시 CPU 오프로딩 시스템을 분석한다. OffloadingManager 추상화, LRU/ARC 캐시 정책, 블록 레벨 관리의 설계를 살펴본다.#vllm#kv-cache#offloading#memory-management2026년 4월 8일댓글 수 로딩 중
[vLLM] MTP & DFlash: 다중 토큰 예측과 Flash 기반 드래프팅vLLM의 DFlash 투기적 디코딩 구현을 분석한다. 다중 토큰 예측(MTP)을 Flash Attention 기반으로 구현한 DFlashProposer의 핵심 로직을 살펴본다.#vllm#speculative-decoding#mtp#dflash#flash-attention2026년 4월 8일댓글 수 로딩 중
[vLLM] Beam Search: 빔 서치 디코딩 구현 분석vLLM의 빔 서치 디코딩 구현을 분석한다. BeamSearchSequence, 스코어링, length penalty 로직을 코드 레벨에서 살펴본다.#vllm#beam-search#decoding#inference2026년 4월 8일댓글 수 로딩 중