#머신러닝

1개의 포스트

[flashinfer] FlashInfer, SM120 GPU를 위한 희소 MLA 커널 추가로 LLM 추론 속도 향상

FlashInfer가 SM120 GPU를 위한 희소 MLA 커널을 도입하여 LLM 추론 성능을 대폭 개선했습니다.

#FlashInfer #LLM #GPU 최적화 #CUDA 커널 #머신러닝

2026년 6월 15일