[flashinfer] FlashInfer Unified MoE API: NVFP4 백엔드 통합 및 자동 튜닝 최적화CuteDSL과 TRTLLM FP4 백엔드를 통합하고, 런타임 자동 튜닝을 통해 최적의 성능을 선택하는 Unified MoE API 설계 및 구현.#FlashInfer#MoE#NVFP4#Autotuning#LLM2026년 6월 10일댓글 수 로딩 중
[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.#FlashInfer#LLM#Autotuning#Optimization#MoE2026년 4월 24일댓글 수 로딩 중