[vllm] vLLM XPU MOE 성능 최적화: 호스트 오버헤드 감소를 위한 객체 지향적 접근vLLM의 XPU MOE 레이어에서 매 추론마다 반복되던 커널 호출 설정을 객체화하여 호스트 오버헤드를 획기적으로 줄인 최적화 사례를 분석합니다.#vLLM#XPU#MOE#Performance#Optimization2026년 5월 23일댓글 수 로딩 중