vLLM

[vLLM] Tensor Parallelism: 거대 모델을 여러 GPU에 나누는 텐서 병렬화

Megatron-LM 스타일의 텐서 병렬화가 vLLM의 Linear 레이어에 어떻게 구현되어 있는지를 ColumnParallelLinear와 RowParallelLinear 코드로 분석한다.

#vllm #tensor-parallelism #distributed #megatron

2026년 4월 7일

[vLLM] Sampler: logits에서 토큰까지, 샘플링 파이프라인 전체 분석

모델 출력 logits를 실제 토큰으로 변환하는 vLLM Sampler의 9단계 파이프라인을 코드 레벨에서 분석한다.

#vllm #sampler #sampling #logits-processing

2026년 4월 7일

[vLLM] EAGLE: 은닉 상태 기반 드래프트로 Speculative Decoding을 강화하다

타겟 모델의 은닉 상태(hidden states)를 직접 활용하여 드래프트 정확도를 높이는 EAGLE의 vLLM 구현을 분석한다.

#vllm #eagle #speculative-decoding #hidden-states

2026년 4월 7일

[vLLM] Speculative Decoding: 드래프트 모델로 LLM 디코딩을 가속하는 원리

작은 드래프트 모델이 여러 토큰을 미리 생성하고, 큰 타겟 모델이 한 번에 검증하는 Speculative Decoding의 vLLM 구현을 분석한다.

#vllm #speculative-decoding #inference-acceleration #draft-model

2026년 4월 7일

[vLLM] Multi-head Latent Attention: KV 캐시를 압축하는 DeepSeek의 어텐션

KV 캐시를 저차원 잠재 공간으로 압축하여 메모리를 대폭 줄이는 MLA(Multi-head Latent Attention)의 vLLM 구현을 분석한다.

#vllm #mla #deepseek #kv-cache-compression

2026년 4월 7일

[vLLM] FlashInfer: LLM 서빙에 특화된 어텐션 엔진

Prefill과 Decode를 분리 최적화하고 다양한 KV 캐시 포맷을 지원하는 FlashInfer 백엔드의 vLLM 통합 구조를 분석한다.

#vllm #flashinfer #attention #decode-optimization

2026년 4월 7일

[vLLM] FlashAttention: IO-aware 타일링으로 어텐션 연산을 가속하는 원리

GPU 메모리 계층을 고려한 타일링 기법으로 어텐션 연산의 IO 병목을 해결하는 FlashAttention의 vLLM 통합 구조를 분석한다.

#vllm #flash-attention #gpu-optimization #attention

2026년 4월 7일

[vLLM] Chunked Prefill: 긴 프롬프트를 청크 단위로 분할 처리하는 기법

긴 프롬프트가 디코딩 요청을 기아(starvation) 상태에 빠뜨리는 문제를 해결하는 Chunked Prefill의 구현을 분석한다.

#vllm #chunked-prefill #scheduler #latency

2026년 4월 7일

[vLLM] Continuous Batching: 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭

전통적인 static batching의 한계를 넘어 요청 단위로 동적 스케줄링하는 Continuous Batching의 구현을 vLLM 스케줄러 코드로 분석한다.

#vllm #continuous-batching #scheduler #serving

2026년 4월 7일

[vLLM] PagedAttention: OS 페이징 기법으로 KV 캐시를 관리하는 방법

운영체제의 가상 메모리 페이징 기법을 KV 캐시 관리에 적용한 PagedAttention의 핵심 구조를 vLLM 코드와 함께 분석한다.

#vllm #paged-attention #kv-cache #memory-management

2026년 4월 7일

[vLLM] 프로젝트 전체 아키텍처 분석 - 개요 및 목차

vLLM의 전체 아키텍처를 11개 계층으로 분석하고, 80+ 핵심 로직과 40+ 관련 논문을 정리한 시리즈의 개요 포스트

#vllm #Architecture #LLM Inference

2026년 4월 7일