[vllm] vLLM, H100에서의 QKNorm+RoPE 커널 최적화: 더 나은 성능을 위한 동적 워크로드 분배vLLM의 QKNorm+RoPE 융합 커널 성능 개선: 동적 워크로드 분배로 H100에서의 효율성 증대#vLLM#CUDA#Kernel Optimization#H100#Transformer2026년 4월 13일댓글 수 로딩 중
[SGLang] 하드웨어별 양자화 튜닝: B200, H100, MI300X 최적 설정SGLang의 하드웨어별 양자화 설정을 분석한다. NVIDIA B200, H100, AMD MI300X 등 GPU별 최적 양자화 파라미터, 하드웨어 특성에 맞춘 커널 선택을 코드와 함께 비교한다.#sglang#Hardware Config#B200#H100#MI300X#Quantization Tuning2026년 4월 12일댓글 수 로딩 중