#성능 향상

5개의 포스트

[sglang] ROCm 아키텍처별 최적화: 런타임 디스패치로 성능 극대화

ROCm 커널의 멀티 아키텍처 지원 강화 및 런타임 최적화를 통해 성능을 향상시킨 PR 분석

#ROCm #GPU 최적화 #커널 프로그래밍 #FP8 #TopK #성능 향상

2026년 6월 11일

[transformers] Apple Silicon의 MPS에서 Flash Attention 최적화: 속도와 효율성 향상

Apple Silicon의 MPS 환경에서 Flash Attention의 성능을 1.66배 향상시키는 최적화 방안을 소개합니다.

#Apple Silicon #MPS #Flash Attention #최적화 #성능 향상 #Hugging Face Transformers

2026년 5월 28일

[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다

FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.

#FlashInfer #FP8 #LLM #최적화 #성능 향상 #딥러닝

2026년 5월 7일

[vllm] vLLM, Gemma4 라우팅 함수 Triton 커널로 최적화하여 성능 대폭 향상

vLLM이 Gemma4 모델의 라우팅 함수를 Triton 커널로 최적화하여 서빙 성능을 크게 개선했습니다.

#vLLM #Gemma4 #Triton #최적화 #성능 향상 #AI 모델 서빙

2026년 4월 19일

[vllm] vLLM, Qwen3-VL 비디오 추론을 위한 CUDA Graph 최적화: 성능 향상의 비결

vLLM이 Qwen3-VL 모델의 비디오 추론 성능을 CUDA Graph를 통해 획기적으로 개선한 방법을 분석합니다.

#vLLM #CUDA Graph #Qwen3-VL #최적화 #성능 향상 #LLM

2026년 4월 14일