#decode-optimization

1개의 포스트

[vLLM] FlashInfer: LLM 서빙에 특화된 어텐션 엔진

Prefill과 Decode를 분리 최적화하고 다양한 KV 캐시 포맷을 지원하는 FlashInfer 백엔드의 vLLM 통합 구조를 분석한다.

#vllm #flashinfer #attention #decode-optimization

2026년 4월 7일