최신 포스트

[vLLM] MXFP8/MXFP4: 마이크로스케일링 포맷 양자화

vLLM의 MXFP8/MXFP4 마이크로스케일링 양자화 구현을 분석한다. Block-32 단위 스케일링의 핵심 구조와 MoE 지원까지.

#vllm #quantization #mxfp8 #mxfp4 #microscaling

2026년 4월 7일

[vLLM] Pipeline Parallelism: 파이프라인 병렬화

vLLM이 파이프라인 병렬화를 구현하여 대규모 모델을 여러 GPU에 분산하는 방식을 분석한다.

#vllm #pipeline-parallelism #distributed #gpu

2026년 4월 7일

[vLLM] Model Loader: 모델 가중치 로딩

vLLM이 다양한 포맷의 모델 가중치를 로딩하는 DefaultModelLoader의 내부 동작을 분석한다.

#vllm #model-loading #safetensors #quantization

2026년 4월 7일

[vLLM] GPU Worker & InputBatch

vLLM의 GPU Worker가 모델을 로딩하고 실행하는 과정과 InputBatch의 GPU 텐서 관리를 분석한다.

#vllm #gpu-worker #cuda #memory-management

2026년 4월 7일

[vLLM] Executor 아키텍처: UniProc, Multiproc, Ray

vLLM v1의 Executor 추상화가 단일 GPU부터 다중 노드까지 실행 환경을 통합하는 방식을 분석한다.

#vllm #executor #distributed #ray #multiprocessing

2026년 4월 7일

[vLLM] Renderer & Tokenizer: 모델별 입력 파이프라인

vLLM의 Renderer와 Tokenizer 레지스트리가 다양한 모델의 입력 형식을 처리하는 구조를 분석한다.

#vllm #tokenizer #renderer #multimodal

2026년 4월 7일

[vLLM] OutputProcessor: 출력 후처리 및 디토크나이징

vLLM의 OutputProcessor가 엔진 출력을 사용자에게 전달 가능한 형태로 변환하는 과정을 분석한다.

#vllm #output-processing #detokenization #streaming

2026년 4월 7일

[vLLM] InputProcessor: 입력 전처리 파이프라인

vLLM v1 엔진의 InputProcessor가 사용자 프롬프트를 EngineCoreRequest로 변환하는 전체 파이프라인을 분석한다.

#vllm #input-processing #tokenization #multimodal

2026년 4월 7일

[vLLM] Pooling Tasks: 임베딩, 분류, 스코어링

vLLM이 생성 태스크 외에 임베딩, 분류, 스코어링을 지원하는 Pooling 시스템의 구조를 분석한다.

#vllm #embedding #pooling #classification

2026년 4월 7일

[vLLM] 오프라인 LLM API: 배치 추론 Python API

vLLM의 LLM 클래스를 통한 오프라인 배치 추론 API의 내부 구조를 분석한다.

#vllm #offline-inference #batch-processing #python-api

2026년 4월 7일

[vLLM] OpenAI 호환 API 서버: FastAPI 기반 HTTP 서빙

vLLM이 OpenAI API와 호환되는 HTTP 서버를 FastAPI로 구축하는 방법을 코드 레벨에서 분석한다.

#vllm #openai #fastapi #serving

2026년 4월 7일

[vLLM] KV Transfer Connectors: KV 캐시 전송 프레임워크

vLLM v1의 KV Transfer Connector 프레임워크를 분석한다. Prefill-Decode 분리, KV 캐시 오프로딩, NIXL 원격 전송 등 다양한 KV 전송 전략을 지원하는 추상화 계층을 살펴본다.

#vllm #KV cache #distributed #disaggregated serving #connector

2026년 4월 7일

[vLLM] Context Parallelism: 컨텍스트 병렬화

vLLM의 Decode Context Parallelism(DCP) 구현을 분석한다. All-to-All 통신으로 어텐션 출력과 LSE를 교환하고 Triton 커널로 결합하는 방법을 코드 레벨에서 살펴본다.

#vllm #context parallelism #distributed #all-to-all #triton

2026년 4월 7일

[vLLM] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링

vLLM의 Mamba SSM attention backend 구현을 분석한다. Transformer의 이차 복잡도를 넘어 선형 시간에 시퀀스를 처리하는 Mamba의 상태 관리, 프리픽스 캐싱, 투기적 디코딩 지원을 살펴본다.

#vllm #mamba #SSM #state space model #attention backend

2026년 4월 7일

[vLLM] N-gram & Suffix Decoding: 모델 프리 드래프트

별도 모델 없이 입력 시퀀스의 패턴만으로 드래프트 토큰을 생성하는 N-gram Proposer와 Suffix Decoding의 vLLM 구현을 분석한다.

#vllm #speculative decoding #ngram #suffix decoding #numba

2026년 4월 7일

[vLLM] Medusa: 다중 예측 헤드 투기적 디코딩

Medusa 투기적 디코딩의 vLLM 구현을 분석한다. 타겟 모델의 hidden state에서 다중 헤드로 드래프트 토큰을 생성하여 디코딩을 가속하는 방법을 코드 레벨에서 살펴본다.

#vllm #speculative decoding #medusa #LLM acceleration

2026년 4월 7일

[vLLM] CUDA Graphs: 커널 런칭 오버헤드 제거

vLLM이 CUDA Graph를 활용하여 디코드 단계의 커널 런칭 오버헤드를 제거하는 방법을 CUDAGraphWrapper와 GPUModelRunner 코드 레벨에서 분석한다.

#vllm #CUDA graphs #optimization #GPU #kernel launch

2026년 4월 7일

[vLLM] torch.compile 통합: PyTorch 컴파일러

vLLM이 torch.compile을 어떻게 통합하여 모델 포워드 패스를 최적화하는지, 커스텀 백엔드와 Piecewise 컴파일 전략을 코드 레벨에서 분석한다.

#vllm #torch.compile #compilation #inductor #optimization

2026년 4월 7일

[vLLM] GPUModelRunner: GPU 모델 포워드 패스

vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.

#vllm #GPU #model runner #forward pass #CUDA

2026년 4월 7일

[vLLM] EngineCore: 핵심 실행 루프

vLLM v1 EngineCore의 스케줄링-실행-업데이트 루프를 코드 레벨에서 분석한다. 별도 프로세스에서 돌아가는 이 엔진의 step() 함수가 모든 것을 조율한다.

#vllm #scheduler #engine core #inference loop

2026년 4월 7일