[vllm] AMD RDNA3 (gfx1100)를 위한 vLLM의 W4A16 GPTQ 커널 최적화 심층 분석AMD RDNA3 GPU에서 bf16 모델의 W4A16 추론 성능을 획기적으로 개선한 vLLM PR 분석.#vLLM#ROCm#RDNA3#GPTQ#W4A16#HIP#Kernel Optimization#bf16#fp16#GPU Programming2026년 5월 29일댓글 수 로딩 중
[vllm] [vLLM] W4A16 양자화 모델의 호환성 문제 해결: Triton 커널을 활용한 CUDA Fallback 구현Marlin 커널의 정렬 제약으로 인해 실행 불가능했던 W4A16 모델들을 Triton 커널 fallback을 통해 CUDA 환경에서도 지원하도록 개선했습니다.#vLLM#CUDA#Triton#Quantization#LLM Inference#W4A162026년 5월 27일댓글 수 로딩 중