[vllm] Blackwell을 위한 새로운 MLA 백엔드: TOKENSPEED_MLA 분석 (DeepSeek R1 최적화)Blackwell(SM100) 아키텍처에서 DeepSeek R1의 MLA 성능을 극대화하는 TOKENSPEED_MLA 백엔드 도입 및 분석.#vLLM#DeepSeek-R1#MLA#Blackwell#CUDA#Performance-Optimization2026년 5월 14일댓글 수 로딩 중
[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화vLLM에서 MLA 모델의 RoPE, KV Cache, q_concat 연산을 하나의 커널로 통합하여 추론 성능을 크게 향상시킨 최적화 기법을 분석합니다.#vLLM#LLM#CUDA#Optimization#MLA#DeepSeek-R12026년 5월 11일댓글 수 로딩 중
[sglang] AMD GPU에서 FP8 MLA를 활용한 Diffusion 모델 성능 최적화FP8 MLA ASM 커널을 도입하여 AMD MI355X 환경에서 Diffusion 모델의 추론 속도를 최대 19% 향상시켰습니다.#AMD#ROCm#FP8#MLA#SGLang#Optimization2026년 5월 8일댓글 수 로딩 중
[flashinfer] FlashInfer BF16 XQA MLA 커널의 10가지 버그 수정 및 최적화 분석FlashInfer의 BF16 XQA MLA 커널에서 발생한 10가지 치명적인 버그를 수정하고 성능을 개선한 PR을 분석합니다.#FlashInfer#CUDA#Kernel Optimization#BF16#XQA#MLA2026년 5월 7일댓글 수 로딩 중
[vllm] [vLLM] ROCm 환경에서의 DeepSeek-V2/V3 성능 극대화를 위한 MLA 최적화 분석ROCm 환경에서 DeepSeek 모델의 MLA 성능을 높이기 위한 KV 캐시 레이아웃 셔플, FP8 Sparse MLA 지원 및 메타데이터 빌더 최적화 기법을 살펴봅니다.#vLLM#ROCm#DeepSeek#MLA#Performance Optimization#Triton2026년 5월 1일댓글 수 로딩 중
[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.#sglang#MLA#Multi-head Latent Attention#KV Compression#DeepSeek2026년 4월 11일댓글 수 로딩 중
[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선#SGLang#TRT-LLM#MLA#DeepSeek#Attention2026년 4월 1일댓글 수 로딩 중