#MLA

8개의 포스트

[flashinfer] FlashInfer MLA 커널 최적화: num_heads < 128 환경에서의 성능 극대화

Blackwell GPU에서 MLA 디코드 커널의 num_heads < 128 성능을 개선하기 위해 seqlen_q를 헤드 차원으로 폴딩하는 최적화 기법을 소개합니다.

#FlashInfer #GPU #MLA #Optimization #Blackwell #CUDA

2026년 5월 29일

[vllm] Blackwell을 위한 새로운 MLA 백엔드: TOKENSPEED_MLA 분석 (DeepSeek R1 최적화)

Blackwell(SM100) 아키텍처에서 DeepSeek R1의 MLA 성능을 극대화하는 TOKENSPEED_MLA 백엔드 도입 및 분석.

#vLLM #DeepSeek-R1 #MLA #Blackwell #CUDA #Performance-Optimization

2026년 5월 14일

[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화

vLLM에서 MLA 모델의 RoPE, KV Cache, q_concat 연산을 하나의 커널로 통합하여 추론 성능을 크게 향상시킨 최적화 기법을 분석합니다.

#vLLM #LLM #CUDA #Optimization #MLA #DeepSeek-R1

2026년 5월 11일

[sglang] AMD GPU에서 FP8 MLA를 활용한 Diffusion 모델 성능 최적화

FP8 MLA ASM 커널을 도입하여 AMD MI355X 환경에서 Diffusion 모델의 추론 속도를 최대 19% 향상시켰습니다.

#AMD #ROCm #FP8 #MLA #SGLang #Optimization

2026년 5월 8일

[flashinfer] FlashInfer BF16 XQA MLA 커널의 10가지 버그 수정 및 최적화 분석

FlashInfer의 BF16 XQA MLA 커널에서 발생한 10가지 치명적인 버그를 수정하고 성능을 개선한 PR을 분석합니다.

#FlashInfer #CUDA #Kernel Optimization #BF16 #XQA #MLA

2026년 5월 7일

[vllm] [vLLM] ROCm 환경에서의 DeepSeek-V2/V3 성능 극대화를 위한 MLA 최적화 분석

ROCm 환경에서 DeepSeek 모델의 MLA 성능을 높이기 위한 KV 캐시 레이아웃 셔플, FP8 Sparse MLA 지원 및 메타데이터 빌더 최적화 기법을 살펴봅니다.

#vLLM #ROCm #DeepSeek #MLA #Performance Optimization #Triton

2026년 5월 1일

[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션

SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.

#sglang #MLA #Multi-head Latent Attention #KV Compression #DeepSeek

2026년 4월 11일

[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원

TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선

#SGLang #TRT-LLM #MLA #DeepSeek #Attention

2026년 4월 1일