#FlashInfer

30개의 포스트

[flashinfer] FlashInfer, 초저병렬성 환경에서의 CP 델타 규칙 사전 계산 최적화

FlashInfer가 초저병렬성 환경에서 CP 델타 규칙 사전 계산 성능을 개선했습니다.

#FlashInfer #LLM #최적화 #GPU #CUDA

2026년 7월 8일

[flashinfer] FlashInfer의 BF16 GEMM 성능 극대화: CUDA Graph와 Cold L2 Cache 도입

FlashInfer의 SM100 타겟 BF16 GEMM 연산에 CUDA Graph와 Cold L2 Cache를 적용하여 오버헤드를 줄이고 성능 안정성을 확보한 사례를 분석합니다.

#FlashInfer #CUDA #GEMM #PerformanceOptimization #GPU

2026년 7월 8일

[flashinfer] FlashInfer의 새로운 TGV GEMM 백엔드: CuTeDSL을 활용한 Blackwell 최적화

FlashInfer에 Blackwell 아키텍처를 위한 고성능 TGV GEMM 백엔드가 추가되었습니다. CuTeDSL 기반의 2-CTA 모드로 성능을 극대화합니다.

#FlashInfer #GEMM #CUDA #Blackwell #CuTeDSL #GPU Optimization

2026년 7월 3일

[flashinfer] FlashInfer의 TRTLLM-Gen MoE 라우팅 최적화: 레지스터 압박 해소와 성능 극대화

MoE 라우팅 커널의 스레드 블록 크기를 동적으로 최적화하여 레지스터 압박을 줄이고 고성능을 달성한 사례 분석.

#FlashInfer #MoE #CUDA #GPU Optimization #TRTLLM

2026년 6월 29일

[flashinfer] FlashInfer, SM120 GPU를 위한 희소 MLA 커널 추가로 LLM 추론 속도 향상

FlashInfer가 SM120 GPU를 위한 희소 MLA 커널을 도입하여 LLM 추론 성능을 대폭 개선했습니다.

#FlashInfer #LLM #GPU 최적화 #CUDA 커널 #머신러닝

2026년 6월 15일

[flashinfer] FlashInfer Unified MoE API: NVFP4 백엔드 통합 및 자동 튜닝 최적화

CuteDSL과 TRTLLM FP4 백엔드를 통합하고, 런타임 자동 튜닝을 통해 최적의 성능을 선택하는 Unified MoE API 설계 및 구현.

#FlashInfer #MoE #NVFP4 #Autotuning #LLM

2026년 6월 10일

[flashinfer] FlashInfer의 MoE Routing 성능 최적화: Batcher's Odd-Even Merge Sort 도입

FlashInfer의 MoE Top-K 연산에서 64비트 리덕션 최적화 및 비-2의 거듭제곱 정렬을 Batcher's 네트워크로 개선하여 성능을 극대화했습니다.

#FlashInfer #CUDA #MoE #Optimization #GPU #Sorting

2026년 6월 4일

[flashinfer] FlashInfer FP8 KV-Cache Prefill 성능 최적화: Repacking 기법을 통한 오버헤드 제거

FP8 KV-cache의 dequantization 오버헤드를 BF16 staging buffer로 제거하여 Prefill 성능을 최대 1.3배 향상시켰습니다.

#FlashInfer #CUDA #FP8 #LLM #Optimization

2026년 6월 2일

[논문리뷰] LVSA: Training-Free Sparse Attention for Long Video Diffusion

본 논문은 video diffusion transformers의 긴 영상 생성 과정에서 발생하는 dense self-attention의 연산 효율성 저하와 품질 저하 문제를 해결합니다.

#Review #Video Diffusion Transformers #Sparse Attention #Long Video Generation #Training-Free #FlashInfer #Attention Optimization

2026년 6월 1일

[flashinfer] FlashInfer MLA 커널 최적화: num_heads < 128 환경에서의 성능 극대화

Blackwell GPU에서 MLA 디코드 커널의 num_heads < 128 성능을 개선하기 위해 seqlen_q를 헤드 차원으로 폴딩하는 최적화 기법을 소개합니다.

#FlashInfer #GPU #MLA #Optimization #Blackwell #CUDA

2026년 5월 29일

[flashinfer] FlashInfer의 DeepSeek V4 Sparse MLA 최적화 분석

DeepSeek V4의 Sparse MLA를 지원하기 위한 커널 최적화 및 가변 Top-K 처리 로직 개선 사항을 분석합니다.

#FlashInfer #DeepSeek #CUDA #LLM #Optimization

2026년 5월 21일

[flashinfer] FlashInfer Mamba SSU 커널 최적화: Async State Prefetching과 Vectorized Load를 통한 성능 혁신

FlashInfer의 Mamba SSU 커널이 Async State Prefetching, Vectorized Load 등으로 극적인 성능 향상을 이루었습니다.

#FlashInfer #Mamba #SSU #Kernel Optimization #Triton #CUDA #Performance

2026년 5월 13일

[flashinfer] FlashInfer, 동적 토큰 페이지 커널 도입으로 TRTLLM-GEN GQA 성능 최적화

FlashInfer가 TRTLLM-GEN GQA 커널에 동적 토큰 페이지 기능을 도입하여 LLM 추론 성능을 향상시켰습니다.

#FlashInfer #LLM #최적화 #GQA #TRTLLM-GEN #성능

2026년 5월 11일

[sglang] SGLang의 FP4 GEMM 성능 최적화: CuTe DSL 백엔드 도입

SGLang에 FlashInfer의 CuTe DSL 기반 FP4 GEMM 백엔드를 추가하여 SM100 아키텍처에서의 연산 성능을 최적화했습니다.

#SGLang #FP4 #GEMM #CUDA #CuTe #FlashInfer

2026년 5월 9일

[flashinfer] FlashInfer의 Per-token NVFP4 Quantization 커널 최적화 분석

FlashInfer의 NVFP4 양자화 커널 성능 개선: 블록 사이즈 최적화 및 Fast Math 제어 옵션 도입

#FlashInfer #CUDA #Quantization #LLM #Performance

2026년 5월 8일

[flashinfer] FlashInfer, MoE 및 FP8 GEMM 성능 향상을 위한 커널 업데이트

FlashInfer의 MoE 및 FP8 GEMM 커널 업데이트를 통해 성능을 최적화하고 호환성을 개선합니다.

#FlashInfer #GEMM #MoE #FP8 #CUDA #최적화

2026년 5월 8일

[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다

FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.

#FlashInfer #FP8 #LLM #최적화 #성능 향상 #딥러닝

2026년 5월 7일

[flashinfer] FlashInfer BF16 XQA MLA 커널의 10가지 버그 수정 및 최적화 분석

FlashInfer의 BF16 XQA MLA 커널에서 발생한 10가지 치명적인 버그를 수정하고 성능을 개선한 PR을 분석합니다.

#FlashInfer #CUDA #Kernel Optimization #BF16 #XQA #MLA

2026년 5월 7일

[flashinfer] FlashInfer, CUDA 그래프 호환성을 높이고 성능을 최적화하다: TRT-LLM FMHA v2 통합 및 불필요한 H2D 제거

FlashInfer가 TRT-LLM FMHA v2를 통합하고 CUDA 그래프 호환성을 개선하여 성능을 최적화한 PR을 분석합니다.

#FlashInfer #TRT-LLM #CUDA #최적화 #성능 #LLM

2026년 5월 6일

[flashinfer] FlashInfer: Wide Vector 최적화와 1900줄의 코드 삭제로 달성한 성능 개선

gdn_wide_vec_kernel 도입과 불필요한 레거시 커널 제거를 통해 B200에서 최대 82%의 DRAM 대역폭 효율을 달성한 사례를 분석합니다.

#CUDA #PyTorch #FlashInfer #Performance-Optimization #LLM

2026년 5월 6일

[flashinfer] FlashInfer의 DiT 최적화: SageAttention과 Int8/FP8 혼합 정밀도 커널 도입 분석

FlashInfer에 DiT 모델 최적화를 위한 SageAttention 스케일링 팩터 지원 및 Int8/FP8 혼합 정밀도 커널이 추가되었습니다.

#FlashInfer #CUDA #DiT #SageAttention #Quantization #DeepLearning

2026년 5월 1일

[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상

FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.

#FlashInfer #TRTLLM #MoE #NemotronH #FP4 #FP8 #Kernel Optimization #Deep Learning #Performance

2026년 4월 29일

[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입

기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.

#FlashInfer #LLM #Autotuning #Optimization #MoE

2026년 4월 24일

[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화

FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.

#FlashInfer #CuTe DSL #FMHA #Prefill #최적화 #성능 개선 #딥러닝 #LLM

2026년 4월 24일

[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석

FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.

#FlashInfer #Distributed Computing #CUDA #GEMM #Performance Optimization

2026년 4월 24일

[SGLang] FlashInfer: 래그드 텐서 어텐션 엔진

SGLang의 FlashInfer 백엔드를 분석한다. 가변 길이 시퀀스를 위한 래그드 텐서 처리, FlashAttention 대비 장점, Paged KV Cache 통합을 코드와 함께 살펴본다.

#sglang #FlashInfer #Ragged Tensor #Variable Length

2026년 4월 11일

[sglang] SGLang DeepSeekV3 Router GEMM 최적화: FlashInfer 커널 도입 및 벤치마킹

DeepSeekV3 라우터 GEMM 성능 최적화를 위해 FlashInfer 커널을 도입하고 벤치마킹합니다.

#SGLang #DeepSeekV3 #FlashInfer #GEMM #최적화 #벤치마킹 #Blackwell #GPU

2026년 4월 4일

[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화

SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.

#SGLang #FlashInfer #TRT-LLM #MoE #FP8 #최적화 #성능 #MiniMax-M2.5

2026년 4월 2일

[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리

SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.

#SGLang #FlashInfer #MXFP8 #CUTLASS #TensorRT-LLM #Quantization #Blackwell

2026년 4월 1일

[sglang] CI 테스트 최적화: MXFP8 Gemm에 오프라인 양자화 체크포인트 적용

SGLang CI에서 MXFP8 Gemm 테스트를 온라인 양자화 대신 사전 양자화된 체크포인트로 전환하여 테스트 안정성과 속도를 개선한 분석.

#SGLang #CI #FlashInfer #MXFP8 #Quantization #Testing

2026년 3월 30일