[vLLM] Warmup: 커널 JIT 사전 컴파일vLLM의 워밍업 시스템을 분석한다. Deep GEMM, FlashInfer 오토튜닝, 어텐션 커널 사전 워밍업으로 JIT 컴파일 지연을 제거하는 전략을 살펴본다.#vllm#warmup#jit#deep-gemm#flashinfer2026년 4월 8일댓글 수 로딩 중
[vLLM] FlashInfer: LLM 서빙에 특화된 어텐션 엔진Prefill과 Decode를 분리 최적화하고 다양한 KV 캐시 포맷을 지원하는 FlashInfer 백엔드의 vLLM 통합 구조를 분석한다.#vllm#flashinfer#attention#decode-optimization2026년 4월 7일댓글 수 로딩 중