#XPU

8개의 포스트

[vllm] vLLM XPU 백엔드 최적화: W8A8 및 W8A16 FP8 Linear 커널 도입

vLLM의 XPU 백엔드에 W8A8 및 W8A16 FP8 Linear 커널을 추가하여 다양한 양자화 세분성을 지원하고 성능을 최적화했습니다.

#vLLM #XPU #FP8 #Quantization #LLM

2026년 7월 4일

[sglang] Intel XPU를 위한 고성능 그래프 캡처 및 리플레이 지원 구현

SGLang에 Intel XPU 그래프 캡처 기능을 도입하여 커널 실행 오버헤드를 줄이고 추론 성능을 최적화했습니다.

#SGLang #XPU #LLM #Optimization #CUDA-Graph

2026년 7월 2일

[vllm] vLLM XPU MOE 성능 최적화: 호스트 오버헤드 감소를 위한 객체 지향적 접근

vLLM의 XPU MOE 레이어에서 매 추론마다 반복되던 커널 호출 설정을 객체화하여 호스트 오버헤드를 획기적으로 줄인 최적화 사례를 분석합니다.

#vLLM #XPU #MOE #Performance #Optimization

2026년 5월 23일

[vllm] vLLM XPU 가속을 위한 MXFP4 W4A4 GEMM 커널 도입 분석

vLLM의 XPU 플랫폼 지원 확대를 위해 MXFP4 양자화 형식을 지원하는 전용 GEMM 커널 추가 및 최적화 과정을 살펴봅니다.

#vLLM #XPU #MXFP4 #Quantization #GEMM #Performance

2026년 5월 13일

[SGLang] Hardware Backends: MLX, NPU, XPU 하드웨어 추상화

SGLang의 Hardware Backend를 분석한다. Apple MLX, Huawei Ascend NPU, Intel XPU 등 다양한 하드웨어의 추상화 레이어, CUDA 대비 차이점을 코드와 함께 비교한다.

#sglang #Hardware Backend #MLX #NPU #XPU #Abstraction

2026년 4월 15일

[vllm] vLLM의 XPU 가속을 위한 MXFP8 GEMM 커널 도입 분석

vLLM이 Intel XPU 환경에서 MXFP8 양자화 연산을 지원하기 위해 전용 GEMM 커널을 추가하고 성능 최적화를 달성했습니다.

#vLLM #XPU #MXFP8 #Quantization #GEMM #Intel

2026년 4월 13일

[sglang] Intel GPU 가속을 위한 SGLang MoE 커널 최적화: GPT-OSS bf16 지원 분석

Intel XPU 환경에서 GPT-OSS 모델의 MoE 연산 효율을 극대화하기 위한 fused_experts 커널 파라미터 최적화 기법을 살펴봅니다.

#SGLang #Intel GPU #XPU #MoE #GPT-OSS #Deep Learning Optimization

2026년 4월 13일

[SGLang] 하드웨어별 통신: HPU, NPU, XPU 커뮤니케이터

SGLang의 하드웨어별 통신 구현을 분석한다. Intel Gaudi(HPU), Huawei Ascend(NPU), Intel XPU 각각의 집합 통신 구현과 NCCL 대비 차이를 코드와 함께 비교한다.

#sglang #HPU #NPU #XPU #Hardware Communication

2026년 4월 13일