[vLLM] Tensor Parallelism: 거대 모델을 여러 GPU에 나누는 텐서 병렬화Megatron-LM 스타일의 텐서 병렬화가 vLLM의 Linear 레이어에 어떻게 구현되어 있는지를 ColumnParallelLinear와 RowParallelLinear 코드로 분석한다.#vllm#tensor-parallelism#distributed#megatron2026년 4월 7일댓글 수 로딩 중
[vLLM] Sampler: logits에서 토큰까지, 샘플링 파이프라인 전체 분석모델 출력 logits를 실제 토큰으로 변환하는 vLLM Sampler의 9단계 파이프라인을 코드 레벨에서 분석한다.#vllm#sampler#sampling#logits-processing2026년 4월 7일댓글 수 로딩 중
[vLLM] EAGLE: 은닉 상태 기반 드래프트로 Speculative Decoding을 강화하다타겟 모델의 은닉 상태(hidden states)를 직접 활용하여 드래프트 정확도를 높이는 EAGLE의 vLLM 구현을 분석한다.#vllm#eagle#speculative-decoding#hidden-states2026년 4월 7일댓글 수 로딩 중
[vLLM] Speculative Decoding: 드래프트 모델로 LLM 디코딩을 가속하는 원리작은 드래프트 모델이 여러 토큰을 미리 생성하고, 큰 타겟 모델이 한 번에 검증하는 Speculative Decoding의 vLLM 구현을 분석한다.#vllm#speculative-decoding#inference-acceleration#draft-model2026년 4월 7일댓글 수 로딩 중
[vLLM] Multi-head Latent Attention: KV 캐시를 압축하는 DeepSeek의 어텐션KV 캐시를 저차원 잠재 공간으로 압축하여 메모리를 대폭 줄이는 MLA(Multi-head Latent Attention)의 vLLM 구현을 분석한다.#vllm#mla#deepseek#kv-cache-compression2026년 4월 7일댓글 수 로딩 중
[vLLM] FlashInfer: LLM 서빙에 특화된 어텐션 엔진Prefill과 Decode를 분리 최적화하고 다양한 KV 캐시 포맷을 지원하는 FlashInfer 백엔드의 vLLM 통합 구조를 분석한다.#vllm#flashinfer#attention#decode-optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] FlashAttention: IO-aware 타일링으로 어텐션 연산을 가속하는 원리GPU 메모리 계층을 고려한 타일링 기법으로 어텐션 연산의 IO 병목을 해결하는 FlashAttention의 vLLM 통합 구조를 분석한다.#vllm#flash-attention#gpu-optimization#attention2026년 4월 7일댓글 수 로딩 중
[vLLM] Chunked Prefill: 긴 프롬프트를 청크 단위로 분할 처리하는 기법긴 프롬프트가 디코딩 요청을 기아(starvation) 상태에 빠뜨리는 문제를 해결하는 Chunked Prefill의 구현을 분석한다.#vllm#chunked-prefill#scheduler#latency2026년 4월 7일댓글 수 로딩 중
[vLLM] Continuous Batching: 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭전통적인 static batching의 한계를 넘어 요청 단위로 동적 스케줄링하는 Continuous Batching의 구현을 vLLM 스케줄러 코드로 분석한다.#vllm#continuous-batching#scheduler#serving2026년 4월 7일댓글 수 로딩 중
[vLLM] PagedAttention: OS 페이징 기법으로 KV 캐시를 관리하는 방법운영체제의 가상 메모리 페이징 기법을 KV 캐시 관리에 적용한 PagedAttention의 핵심 구조를 vLLM 코드와 함께 분석한다.#vllm#paged-attention#kv-cache#memory-management2026년 4월 7일댓글 수 로딩 중
[vLLM] 프로젝트 전체 아키텍처 분석 - 개요 및 목차vLLM의 전체 아키텍처를 11개 계층으로 분석하고, 80+ 핵심 로직과 40+ 관련 논문을 정리한 시리즈의 개요 포스트#vllm#Architecture#LLM Inference2026년 4월 7일댓글 수 로딩 중