최신 포스트

[vLLM] AsyncLLM: 비동기 엔진의 최상위 객체

vLLM v1의 AsyncLLM 클래스가 어떻게 비동기 요청 처리, 멀티프로세스 EngineCore 통신, 스트리밍 출력을 조율하는지 코드 레벨에서 분석한다.

#vllm #async #inference engine #LLM serving

2026년 4월 7일

[vLLM] Expert Parallelism & EPLB: 전문가 병렬화와 부하 균형

vLLM의 Expert Parallelism 구현과 EPLB(Expert Parallelism Load Balancer)의 동적 전문가 재배치 메커니즘을 코드와 함께 분석한다.

#vllm #expert-parallelism #load-balancing #deepseek #moe

2026년 4월 7일

[vLLM] Disaggregated Prefill/Decode: 분리된 서빙

vLLM의 KV Connector 아키텍처를 통해 Prefill과 Decode를 별도 노드에서 실행하는 Disaggregated Serving의 구현 구조를 분석한다.

#vllm #disaggregated-serving #kv-transfer #distributed-inference

2026년 4월 7일

[vLLM] Automatic Prefix Caching: 접두사 캐싱

vLLM의 KVCacheManager가 해시 기반으로 프롬프트 접두사를 자동 캐싱하여 중복 연산을 제거하는 메커니즘을 코드와 함께 분석한다.

#vllm #kv-cache #prefix-caching #scheduling

2026년 4월 7일

[vLLM] Structured Output: JSON/regex/문법 제약 생성

vLLM이 xgrammar, outlines 등의 백엔드를 활용하여 LLM 출력을 JSON 스키마, 정규식, 문법 규칙으로 제약하는 구조를 분석한다.

#vllm #structured-output #json-schema #constrained-decoding

2026년 4월 7일

[vLLM] RoPE 변형: 15+ 로타리 위치 인코딩

vLLM에 구현된 15가지 이상의 RoPE 변형을 총정리하고, 기본 구현부터 YaRN, Llama3 RoPE까지의 코드 구조를 분석한다.

#vllm #rope #positional-encoding #attention

2026년 4월 7일

[vLLM] Fused MoE: 라우팅+전문가 연산 융합

vLLM의 Fused MoE 레이어가 라우터와 전문가 연산을 하나의 커널로 융합하여 MoE 모델을 효율적으로 서빙하는 구조를 분석한다.

#vllm #moe #fused-kernel #deepseek #mixtral

2026년 4월 7일

[vLLM] LoRA (Multi-LoRA Serving): 저차원 어댑터 서빙

vLLM이 하나의 베이스 모델 위에서 여러 LoRA 어댑터를 동시에 서빙하는 Multi-LoRA 아키텍처를 코드와 함께 분석한다.

#vllm #lora #fine-tuning #multi-tenant serving

2026년 4월 7일

[vLLM] FP8: 8비트 부동소수점 양자화

FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.

#vllm #quantization #fp8 #inference optimization

2026년 4월 7일

[vLLM] AWQ: 활성화 인식 가중치 양자화

AWQ의 핵심 아이디어인 활성화 기반 중요 채널 보존이 vLLM에서 어떻게 구현되는지 코드 레벨로 분석한다.

#vllm #quantization #awq #inference optimization

2026년 4월 7일

[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화

vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.

#vllm #quantization #gptq #inference optimization

2026년 4월 7일

[vLLM] Tensor Parallelism: 거대 모델을 여러 GPU에 나누는 텐서 병렬화

Megatron-LM 스타일의 텐서 병렬화가 vLLM의 Linear 레이어에 어떻게 구현되어 있는지를 ColumnParallelLinear와 RowParallelLinear 코드로 분석한다.

#vllm #tensor-parallelism #distributed #megatron

2026년 4월 7일

[vLLM] Sampler: logits에서 토큰까지, 샘플링 파이프라인 전체 분석

모델 출력 logits를 실제 토큰으로 변환하는 vLLM Sampler의 9단계 파이프라인을 코드 레벨에서 분석한다.

#vllm #sampler #sampling #logits-processing

2026년 4월 7일

[vLLM] EAGLE: 은닉 상태 기반 드래프트로 Speculative Decoding을 강화하다

타겟 모델의 은닉 상태(hidden states)를 직접 활용하여 드래프트 정확도를 높이는 EAGLE의 vLLM 구현을 분석한다.

#vllm #eagle #speculative-decoding #hidden-states

2026년 4월 7일

[vLLM] Speculative Decoding: 드래프트 모델로 LLM 디코딩을 가속하는 원리

작은 드래프트 모델이 여러 토큰을 미리 생성하고, 큰 타겟 모델이 한 번에 검증하는 Speculative Decoding의 vLLM 구현을 분석한다.

#vllm #speculative-decoding #inference-acceleration #draft-model

2026년 4월 7일

[vLLM] Multi-head Latent Attention: KV 캐시를 압축하는 DeepSeek의 어텐션

KV 캐시를 저차원 잠재 공간으로 압축하여 메모리를 대폭 줄이는 MLA(Multi-head Latent Attention)의 vLLM 구현을 분석한다.

#vllm #mla #deepseek #kv-cache-compression

2026년 4월 7일

[vLLM] FlashInfer: LLM 서빙에 특화된 어텐션 엔진

Prefill과 Decode를 분리 최적화하고 다양한 KV 캐시 포맷을 지원하는 FlashInfer 백엔드의 vLLM 통합 구조를 분석한다.

#vllm #flashinfer #attention #decode-optimization

2026년 4월 7일

[vLLM] FlashAttention: IO-aware 타일링으로 어텐션 연산을 가속하는 원리

GPU 메모리 계층을 고려한 타일링 기법으로 어텐션 연산의 IO 병목을 해결하는 FlashAttention의 vLLM 통합 구조를 분석한다.

#vllm #flash-attention #gpu-optimization #attention

2026년 4월 7일

[vLLM] Chunked Prefill: 긴 프롬프트를 청크 단위로 분할 처리하는 기법

긴 프롬프트가 디코딩 요청을 기아(starvation) 상태에 빠뜨리는 문제를 해결하는 Chunked Prefill의 구현을 분석한다.

#vllm #chunked-prefill #scheduler #latency

2026년 4월 7일

[vLLM] Continuous Batching: 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭

전통적인 static batching의 한계를 넘어 요청 단위로 동적 스케줄링하는 Continuous Batching의 구현을 vLLM 스케줄러 코드로 분석한다.

#vllm #continuous-batching #scheduler #serving

2026년 4월 7일