#FP8

17개의 포스트

[sglang] DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 성능 최적화

DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 GPU 연산 효율성을 높였습니다.

#AI #딥러닝 #최적화 #FP8 #GPU

2026년 5월 12일

[flashinfer] FlashInfer, MoE 및 FP8 GEMM 성능 향상을 위한 커널 업데이트

FlashInfer의 MoE 및 FP8 GEMM 커널 업데이트를 통해 성능을 최적화하고 호환성을 개선합니다.

#FlashInfer #GEMM #MoE #FP8 #CUDA #최적화

2026년 5월 8일

[sglang] AMD GPU에서 FP8 MLA를 활용한 Diffusion 모델 성능 최적화

FP8 MLA ASM 커널을 도입하여 AMD MI355X 환경에서 Diffusion 모델의 추론 속도를 최대 19% 향상시켰습니다.

#AMD #ROCm #FP8 #MLA #SGLang #Optimization

2026년 5월 8일

[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다

FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.

#FlashInfer #FP8 #LLM #최적화 #성능 향상 #딥러닝

2026년 5월 7일

[transformers] Hugging Face Transformers: MoE 및 FP8 커널 최적화를 통한 성능 향상

Hugging Face Transformers 라이브러리의 MoE 및 FP8 커널 최적화를 통해 성능을 개선하고 안정성을 높인 PR 분석

#transformers #optimization #MoE #FP8 #performance #kernel

2026년 5월 4일

[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상

FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.

#FlashInfer #TRTLLM #MoE #NemotronH #FP4 #FP8 #Kernel Optimization #Deep Learning #Performance

2026년 4월 29일

[sglang] AMD GPU에서 FP8 KV 캐시 쓰기 최적화: Triton 커널 융합으로 성능 향상

AMD GPU의 FP8 KV 캐시 쓰기 성능을 개선하기 위해 Triton 커널을 융합하여 오버헤드를 줄였습니다.

#AMD GPU #FP8 #Triton Kernel #KV Cache #Optimization #SGLang

2026년 4월 25일

[sglang] SGLang 성능 최적화: FP8 모델을 위한 Inductor 컴파일러 경로 개선

Inductor 컴파일러의 커널 퓨전 능력을 극대화하여 FP8 임베딩 성능을 24% 향상시킨 최적화 기법을 소개합니다.

#SGLang #PyTorch Inductor #FP8 #Kernel Fusion #LLM Optimization

2026년 4월 14일

[SGLang] FP8: 8비트 부동소수점 양자화의 구현과 성능

SGLang의 FP8 양자화를 분석한다. E4M3/E5M2 포맷의 차이, 동적/정적 양자화 모드, FP16 대비 메모리 절감과 처리량 향상을 코드와 함께 살펴본다.

#sglang #FP8 #Quantization #8-bit #E4M3

2026년 4월 12일

[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합

RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.

#SGLang #AMD #ROCm #FP8 #KernelFusion #LLM

2026년 4월 11일

[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화

AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.

#SGLang #AMD #ROCm #FP8 #LLM #CI/CD

2026년 4월 8일

[sglang] sglang, Qwen3.5-397B FP8 모델 성능 벤치마크 추가 및 CI 개선

sglang 레포지토리에서 Qwen3.5-397B FP8 모델의 AMD GPU 성능 벤치마크를 추가하고 CI 워크플로우를 개선한 PR을 분석합니다.

#sglang #performance #CI #AMD #Qwen3.5 #FP8 #benchmarking

2026년 4월 7일

[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화

SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.

#SGLang #FlashInfer #TRT-LLM #MoE #FP8 #최적화 #성능 #MiniMax-M2.5

2026년 4월 2일

[sglang] DeepEP Low Latency FP8 Dispatch 변경 revert

DeepSeek-R1-0528-w4a8의 DeepEP Low Latency Dispatch FP8 통신 변경을 revert하여 안정성 확보

#SGLang #DeepEP #MoE #FP8 #Revert

2026년 3월 31일

[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입

SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.

#CUDA #CUTLASS #GEMM #FP8 #SGLang #SM120

2026년 3월 22일

[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교

Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다

#Triton #CUDA #Matrix Multiplication #FP8 #Blackwell

2026년 3월 13일

[PyTorch] FlexAttention에 저정밀도 K/V 입력 지원 추가

FlexAttention compiled 모드에서 FP8 등 저정밀도 K/V 입력을 허용하여 양자화 추론을 지원한다

#PyTorch #FlexAttention #FP8 #Quantization

2026년 1월 5일