[vLLM] KV Transfer Connectors: KV 캐시 전송 프레임워크vLLM v1의 KV Transfer Connector 프레임워크를 분석한다. Prefill-Decode 분리, KV 캐시 오프로딩, NIXL 원격 전송 등 다양한 KV 전송 전략을 지원하는 추상화 계층을 살펴본다.#vllm#KV cache#distributed#disaggregated serving#connector2026년 4월 7일댓글 수 로딩 중
[vLLM] Context Parallelism: 컨텍스트 병렬화vLLM의 Decode Context Parallelism(DCP) 구현을 분석한다. All-to-All 통신으로 어텐션 출력과 LSE를 교환하고 Triton 커널로 결합하는 방법을 코드 레벨에서 살펴본다.#vllm#context parallelism#distributed#all-to-all#triton2026년 4월 7일댓글 수 로딩 중
[vLLM] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링vLLM의 Mamba SSM attention backend 구현을 분석한다. Transformer의 이차 복잡도를 넘어 선형 시간에 시퀀스를 처리하는 Mamba의 상태 관리, 프리픽스 캐싱, 투기적 디코딩 지원을 살펴본다.#vllm#mamba#SSM#state space model#attention backend2026년 4월 7일댓글 수 로딩 중
[vLLM] N-gram & Suffix Decoding: 모델 프리 드래프트별도 모델 없이 입력 시퀀스의 패턴만으로 드래프트 토큰을 생성하는 N-gram Proposer와 Suffix Decoding의 vLLM 구현을 분석한다.#vllm#speculative decoding#ngram#suffix decoding#numba2026년 4월 7일댓글 수 로딩 중
[vLLM] Medusa: 다중 예측 헤드 투기적 디코딩Medusa 투기적 디코딩의 vLLM 구현을 분석한다. 타겟 모델의 hidden state에서 다중 헤드로 드래프트 토큰을 생성하여 디코딩을 가속하는 방법을 코드 레벨에서 살펴본다.#vllm#speculative decoding#medusa#LLM acceleration2026년 4월 7일댓글 수 로딩 중
[vLLM] CUDA Graphs: 커널 런칭 오버헤드 제거vLLM이 CUDA Graph를 활용하여 디코드 단계의 커널 런칭 오버헤드를 제거하는 방법을 CUDAGraphWrapper와 GPUModelRunner 코드 레벨에서 분석한다.#vllm#CUDA graphs#optimization#GPU#kernel launch2026년 4월 7일댓글 수 로딩 중
[vLLM] torch.compile 통합: PyTorch 컴파일러vLLM이 torch.compile을 어떻게 통합하여 모델 포워드 패스를 최적화하는지, 커스텀 백엔드와 Piecewise 컴파일 전략을 코드 레벨에서 분석한다.#vllm#torch.compile#compilation#inductor#optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPUModelRunner: GPU 모델 포워드 패스vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.#vllm#GPU#model runner#forward pass#CUDA2026년 4월 7일댓글 수 로딩 중
[vLLM] EngineCore: 핵심 실행 루프vLLM v1 EngineCore의 스케줄링-실행-업데이트 루프를 코드 레벨에서 분석한다. 별도 프로세스에서 돌아가는 이 엔진의 step() 함수가 모든 것을 조율한다.#vllm#scheduler#engine core#inference loop2026년 4월 7일댓글 수 로딩 중
[vLLM] AsyncLLM: 비동기 엔진의 최상위 객체vLLM v1의 AsyncLLM 클래스가 어떻게 비동기 요청 처리, 멀티프로세스 EngineCore 통신, 스트리밍 출력을 조율하는지 코드 레벨에서 분석한다.#vllm#async#inference engine#LLM serving2026년 4월 7일댓글 수 로딩 중
[vLLM] Expert Parallelism & EPLB: 전문가 병렬화와 부하 균형vLLM의 Expert Parallelism 구현과 EPLB(Expert Parallelism Load Balancer)의 동적 전문가 재배치 메커니즘을 코드와 함께 분석한다.#vllm#expert-parallelism#load-balancing#deepseek#moe2026년 4월 7일댓글 수 로딩 중
[vLLM] Disaggregated Prefill/Decode: 분리된 서빙vLLM의 KV Connector 아키텍처를 통해 Prefill과 Decode를 별도 노드에서 실행하는 Disaggregated Serving의 구현 구조를 분석한다.#vllm#disaggregated-serving#kv-transfer#distributed-inference2026년 4월 7일댓글 수 로딩 중
[vLLM] Automatic Prefix Caching: 접두사 캐싱vLLM의 KVCacheManager가 해시 기반으로 프롬프트 접두사를 자동 캐싱하여 중복 연산을 제거하는 메커니즘을 코드와 함께 분석한다.#vllm#kv-cache#prefix-caching#scheduling2026년 4월 7일댓글 수 로딩 중
[vLLM] Structured Output: JSON/regex/문법 제약 생성vLLM이 xgrammar, outlines 등의 백엔드를 활용하여 LLM 출력을 JSON 스키마, 정규식, 문법 규칙으로 제약하는 구조를 분석한다.#vllm#structured-output#json-schema#constrained-decoding2026년 4월 7일댓글 수 로딩 중
[vLLM] RoPE 변형: 15+ 로타리 위치 인코딩vLLM에 구현된 15가지 이상의 RoPE 변형을 총정리하고, 기본 구현부터 YaRN, Llama3 RoPE까지의 코드 구조를 분석한다.#vllm#rope#positional-encoding#attention2026년 4월 7일댓글 수 로딩 중
[vLLM] Fused MoE: 라우팅+전문가 연산 융합vLLM의 Fused MoE 레이어가 라우터와 전문가 연산을 하나의 커널로 융합하여 MoE 모델을 효율적으로 서빙하는 구조를 분석한다.#vllm#moe#fused-kernel#deepseek#mixtral2026년 4월 7일댓글 수 로딩 중
[vLLM] LoRA (Multi-LoRA Serving): 저차원 어댑터 서빙vLLM이 하나의 베이스 모델 위에서 여러 LoRA 어댑터를 동시에 서빙하는 Multi-LoRA 아키텍처를 코드와 함께 분석한다.#vllm#lora#fine-tuning#multi-tenant serving2026년 4월 7일댓글 수 로딩 중
[vLLM] FP8: 8비트 부동소수점 양자화FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.#vllm#quantization#fp8#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] AWQ: 활성화 인식 가중치 양자화AWQ의 핵심 아이디어인 활성화 기반 중요 채널 보존이 vLLM에서 어떻게 구현되는지 코드 레벨로 분석한다.#vllm#quantization#awq#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.#vllm#quantization#gptq#inference optimization2026년 4월 7일댓글 수 로딩 중