#MOE

1개의 포스트

[vllm] vLLM XPU MOE 성능 최적화: 호스트 오버헤드 감소를 위한 객체 지향적 접근

vLLM의 XPU MOE 레이어에서 매 추론마다 반복되던 커널 호출 설정을 객체화하여 호스트 오버헤드를 획기적으로 줄인 최적화 사례를 분석합니다.

#vLLM #XPU #MOE #Performance #Optimization

2026년 5월 23일