#FP4

6개의 포스트

[논문리뷰] Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

본 논문은 LLM pretraining에서 FP4 사용 시 관찰되는 훈련 불안정성의 근본 원인으로 E2M1 포맷의 기하학적 결함을 지목합니다. 기존 연구들은 이상치 처리를 위해 RHT를 사용하지만, 이는 텐서의 분포를 비대칭적인 E2M1 빈으로 집중시켜 오히려 양자화 품질을 저하시키는 결과를 초래합니다 .

#Review #FP4 #Shrinkage Bias #E2M1 #E1M2 #Random Hadamard Transform #LLM Pretraining #Quantization

2026년 6월 18일

[sglang] SGLang의 FP4 GEMM 성능 최적화: CuTe DSL 백엔드 도입

SGLang에 FlashInfer의 CuTe DSL 기반 FP4 GEMM 백엔드를 추가하여 SM100 아키텍처에서의 연산 성능을 최적화했습니다.

#SGLang #FP4 #GEMM #CUDA #CuTe #FlashInfer

2026년 5월 9일

[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상

FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.

#FlashInfer #TRTLLM #MoE #NemotronH #FP4 #FP8 #Kernel Optimization #Deep Learning #Performance

2026년 4월 29일

[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석

SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.

#LLM #KV Cache #Quantization #Optimization #SGLang #FP4 #NVFP4

2026년 4월 29일

[SGLang] FP4: 4비트 부동소수점 양자화 (NVIDIA NF4)

SGLang의 FP4 양자화를 분석한다. NVIDIA NF4 포맷, 4비트 극저정밀도에서의 정확도 유지 전략, FP8 대비 추가 메모리 절감을 코드와 함께 살펴본다.

#sglang #FP4 #NF4 #4-bit Quantization

2026년 4월 12일

[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석

Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.

#Triton #NVIDIA #FP4 #GPU #Optimization #LLM

2025년 10월 20일