[vLLM] RoPE 변형: 15+ 로타리 위치 인코딩vLLM에 구현된 15가지 이상의 RoPE 변형을 총정리하고, 기본 구현부터 YaRN, Llama3 RoPE까지의 코드 구조를 분석한다.#vllm#rope#positional-encoding#attention2026년 4월 7일댓글 수 로딩 중
[vLLM] Fused MoE: 라우팅+전문가 연산 융합vLLM의 Fused MoE 레이어가 라우터와 전문가 연산을 하나의 커널로 융합하여 MoE 모델을 효율적으로 서빙하는 구조를 분석한다.#vllm#moe#fused-kernel#deepseek#mixtral2026년 4월 7일댓글 수 로딩 중
[vLLM] LoRA (Multi-LoRA Serving): 저차원 어댑터 서빙vLLM이 하나의 베이스 모델 위에서 여러 LoRA 어댑터를 동시에 서빙하는 Multi-LoRA 아키텍처를 코드와 함께 분석한다.#vllm#lora#fine-tuning#multi-tenant serving2026년 4월 7일댓글 수 로딩 중
[vLLM] FP8: 8비트 부동소수점 양자화FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.#vllm#quantization#fp8#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] AWQ: 활성화 인식 가중치 양자화AWQ의 핵심 아이디어인 활성화 기반 중요 채널 보존이 vLLM에서 어떻게 구현되는지 코드 레벨로 분석한다.#vllm#quantization#awq#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.#vllm#quantization#gptq#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] Tensor Parallelism: 거대 모델을 여러 GPU에 나누는 텐서 병렬화Megatron-LM 스타일의 텐서 병렬화가 vLLM의 Linear 레이어에 어떻게 구현되어 있는지를 ColumnParallelLinear와 RowParallelLinear 코드로 분석한다.#vllm#tensor-parallelism#distributed#megatron2026년 4월 7일댓글 수 로딩 중
[vLLM] Sampler: logits에서 토큰까지, 샘플링 파이프라인 전체 분석모델 출력 logits를 실제 토큰으로 변환하는 vLLM Sampler의 9단계 파이프라인을 코드 레벨에서 분석한다.#vllm#sampler#sampling#logits-processing2026년 4월 7일댓글 수 로딩 중
[vLLM] EAGLE: 은닉 상태 기반 드래프트로 Speculative Decoding을 강화하다타겟 모델의 은닉 상태(hidden states)를 직접 활용하여 드래프트 정확도를 높이는 EAGLE의 vLLM 구현을 분석한다.#vllm#eagle#speculative-decoding#hidden-states2026년 4월 7일댓글 수 로딩 중
[vLLM] Speculative Decoding: 드래프트 모델로 LLM 디코딩을 가속하는 원리작은 드래프트 모델이 여러 토큰을 미리 생성하고, 큰 타겟 모델이 한 번에 검증하는 Speculative Decoding의 vLLM 구현을 분석한다.#vllm#speculative-decoding#inference-acceleration#draft-model2026년 4월 7일댓글 수 로딩 중
[vLLM] Multi-head Latent Attention: KV 캐시를 압축하는 DeepSeek의 어텐션KV 캐시를 저차원 잠재 공간으로 압축하여 메모리를 대폭 줄이는 MLA(Multi-head Latent Attention)의 vLLM 구현을 분석한다.#vllm#mla#deepseek#kv-cache-compression2026년 4월 7일댓글 수 로딩 중
[vLLM] FlashInfer: LLM 서빙에 특화된 어텐션 엔진Prefill과 Decode를 분리 최적화하고 다양한 KV 캐시 포맷을 지원하는 FlashInfer 백엔드의 vLLM 통합 구조를 분석한다.#vllm#flashinfer#attention#decode-optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] FlashAttention: IO-aware 타일링으로 어텐션 연산을 가속하는 원리GPU 메모리 계층을 고려한 타일링 기법으로 어텐션 연산의 IO 병목을 해결하는 FlashAttention의 vLLM 통합 구조를 분석한다.#vllm#flash-attention#gpu-optimization#attention2026년 4월 7일댓글 수 로딩 중
[vLLM] Chunked Prefill: 긴 프롬프트를 청크 단위로 분할 처리하는 기법긴 프롬프트가 디코딩 요청을 기아(starvation) 상태에 빠뜨리는 문제를 해결하는 Chunked Prefill의 구현을 분석한다.#vllm#chunked-prefill#scheduler#latency2026년 4월 7일댓글 수 로딩 중
[vLLM] Continuous Batching: 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭전통적인 static batching의 한계를 넘어 요청 단위로 동적 스케줄링하는 Continuous Batching의 구현을 vLLM 스케줄러 코드로 분석한다.#vllm#continuous-batching#scheduler#serving2026년 4월 7일댓글 수 로딩 중
[vLLM] PagedAttention: OS 페이징 기법으로 KV 캐시를 관리하는 방법운영체제의 가상 메모리 페이징 기법을 KV 캐시 관리에 적용한 PagedAttention의 핵심 구조를 vLLM 코드와 함께 분석한다.#vllm#paged-attention#kv-cache#memory-management2026년 4월 7일댓글 수 로딩 중
[vLLM] 프로젝트 전체 아키텍처 분석 - 개요 및 목차vLLM의 전체 아키텍처를 11개 계층으로 분석하고, 80+ 핵심 로직과 40+ 관련 논문을 정리한 시리즈의 개요 포스트#vllm#Architecture#LLM Inference2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.#Review#Vision-Language Models#Video Understanding#Post-Training#Linguistic Bias#Reinforcement Learning#Data Curation#Visually Grounded Reasoning2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding본 논문은 12명의 전문 주석자와 50명의 검토자가 3,300시간을 투입하여 구축한 Video-MME-v2 데이터셋을 통해 모델의 역량을 평가한다. 제안하는 방법론은 비디오 이해 능력을 3단계로 체계화하고, 질문을 그룹화하여 Consistency와 Coherence를 검증하는 그룹 기반 평가 전략을 포함한다.#Review#Video Understanding#Multimodal Large Language Models#Benchmark#Reasoning Coherence#Capability Consistency#Evaluation Hierarchy#Non-linear Scoring2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision본 논문은 Vanast를 통해 단일 단계에서 고충실도의 애니메이션을 합성하는 end-to-end 시스템을 제안합니다. 핵심 방법론인 Dual Module은 인간 애니메이션 모듈(HAM)과 의류 전송 모듈(GTM)로 나뉘어 사전 학습된 Video DiT 백본을 공유하며, 학습 시에는 이 두 모듈만을 최적화하여 빠른 수렴을 도모합니다 .#Review#Virtual Try-On#Human Image Animation#Diffusion Transformer#Synthetic Triplet Supervision#Dual Module Architecture#Zero-shot Garment Interpolation2026년 4월 7일댓글 수 로딩 중