[vLLM] FlashInfer: LLM 서빙에 특화된 어텐션 엔진Prefill과 Decode를 분리 최적화하고 다양한 KV 캐시 포맷을 지원하는 FlashInfer 백엔드의 vLLM 통합 구조를 분석한다.#vllm#flashinfer#attention#decode-optimization2026년 4월 7일댓글 수 로딩 중