#bf16

3개의 포스트

[vllm] AMD RDNA3 (gfx1100)를 위한 vLLM의 W4A16 GPTQ 커널 최적화 심층 분석

AMD RDNA3 GPU에서 bf16 모델의 W4A16 추론 성능을 획기적으로 개선한 vLLM PR 분석.

#vLLM #ROCm #RDNA3 #GPTQ #W4A16 #HIP #Kernel Optimization #bf16 #fp16 #GPU Programming

2026년 5월 29일

[sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선

SGLang의 멀티모달 파이프라인에서 VAE 정밀도를 fp32에서 bf16으로 변경하여 메모리 사용량을 최대 8.7% 절감한 사례를 분석합니다.

#SGLang #Optimization #VAE #bf16 #MemoryEfficiency

2026년 5월 16일

[pytorch] Inductor: bf16/fp16에서 addmm unfuse를 방지하여 정밀도 손실 해결

PyTorch Inductor의 pattern matcher에서 half precision addmm의 unfuse를 방지하여, 딥 모델에서 누적되는 truncation 에러를 차단한 버그 수정을 분석합니다.

#PyTorch #Inductor #Precision #bf16 #fp16 #Pattern Matching #Compiler

2026년 3월 11일