[transformers] Apple Silicon의 MPS에서 Flash Attention 최적화: 속도와 효율성 향상Apple Silicon의 MPS 환경에서 Flash Attention의 성능을 1.66배 향상시키는 최적화 방안을 소개합니다.#Apple Silicon#MPS#Flash Attention#최적화#성능 향상#Hugging Face Transformers2026년 5월 28일댓글 수 로딩 중
[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.#FlashInfer#FP8#LLM#최적화#성능 향상#딥러닝2026년 5월 7일댓글 수 로딩 중
[vllm] vLLM, Gemma4 라우팅 함수 Triton 커널로 최적화하여 성능 대폭 향상vLLM이 Gemma4 모델의 라우팅 함수를 Triton 커널로 최적화하여 서빙 성능을 크게 개선했습니다.#vLLM#Gemma4#Triton#최적화#성능 향상#AI 모델 서빙2026년 4월 19일댓글 수 로딩 중
[vllm] vLLM, Qwen3-VL 비디오 추론을 위한 CUDA Graph 최적화: 성능 향상의 비결vLLM이 Qwen3-VL 모델의 비디오 추론 성능을 CUDA Graph를 통해 획기적으로 개선한 방법을 분석합니다.#vLLM#CUDA Graph#Qwen3-VL#최적화#성능 향상#LLM2026년 4월 14일댓글 수 로딩 중