[vllm] AMD RDNA3 (gfx1100)를 위한 vLLM의 W4A16 GPTQ 커널 최적화 심층 분석AMD RDNA3 GPU에서 bf16 모델의 W4A16 추론 성능을 획기적으로 개선한 vLLM PR 분석.#vLLM#ROCm#RDNA3#GPTQ#W4A16#HIP#Kernel Optimization#bf16#fp16#GPU Programming2026년 5월 29일댓글 수 로딩 중
[sglang] SGLang의 MoE 성능 최적화: 512 전문가 모델을 위한 커널 최적화Qwen3.5-397B와 같은 대규모 MoE 모델을 위해 512 전문가를 지원하는 커널 최적화로 성능을 최대 4배 이상 향상시켰습니다.#SGLang#MoE#CUDA#Kernel Optimization#LLM2026년 5월 25일댓글 수 로딩 중
[flashinfer] FlashInfer Mamba SSU 커널 최적화: Async State Prefetching과 Vectorized Load를 통한 성능 혁신FlashInfer의 Mamba SSU 커널이 Async State Prefetching, Vectorized Load 등으로 극적인 성능 향상을 이루었습니다.#FlashInfer#Mamba#SSU#Kernel Optimization#Triton#CUDA#Performance2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM Mamba2 SSD 커널 웜업: 첫 요청 지연 시간 91% 감소의 비결vLLM Mamba2 모델의 첫 요청 지연 시간을 91% 줄인 Triton 커널 웜업 최적화 분석.#vLLM#Mamba2#Triton#Kernel Optimization#Latency Reduction#Deep Learning Inference2026년 5월 12일댓글 수 로딩 중
[flashinfer] FlashInfer BF16 XQA MLA 커널의 10가지 버그 수정 및 최적화 분석FlashInfer의 BF16 XQA MLA 커널에서 발생한 10가지 치명적인 버그를 수정하고 성능을 개선한 PR을 분석합니다.#FlashInfer#CUDA#Kernel Optimization#BF16#XQA#MLA2026년 5월 7일댓글 수 로딩 중
[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.#FlashInfer#TRTLLM#MoE#NemotronH#FP4#FP8#Kernel Optimization#Deep Learning#Performance2026년 4월 29일댓글 수 로딩 중
[논문리뷰] AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization본 논문은 최신 AI Accelerator(예: Amazon Trainium)에서 고성능 커널을 개발하는 과정이 극도로 어렵고 고비용이라는 문제를 해결하고자 합니다.#Review#LLM Agent#Kernel Optimization#AI Accelerator#Amazon Trainium#Beam Search#Optimization Memory2026년 4월 19일댓글 수 로딩 중
[SGLang] LoRA Triton 커널: SGMV, SGEMM 최적화 연산SGLang의 LoRA Triton 커널을 분석한다. SGMV(Segmented Matrix-Vector), SGEMM(Segmented GEMM) 등 LoRA 전용 최적화 커널의 구현을 코드와 함께 살펴본다.#sglang#LoRA Triton#SGMV#SGEMM#Kernel Optimization2026년 4월 14일댓글 수 로딩 중
[vllm] vLLM, H100에서의 QKNorm+RoPE 커널 최적화: 더 나은 성능을 위한 동적 워크로드 분배vLLM의 QKNorm+RoPE 융합 커널 성능 개선: 동적 워크로드 분배로 H100에서의 효율성 증대#vLLM#CUDA#Kernel Optimization#H100#Transformer2026년 4월 13일댓글 수 로딩 중
[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.#SGLang#CUDA#Kernel Optimization#RMSNorm#Diffusion#GPU2026년 3월 27일댓글 수 로딩 중
[axolotl] Axolotl 커스텀 Triton 커널 — entropy/softmax 최대 5배 가속Triton 커널로 entropy_from_logits와 selective_log_softmax를 fuse하여 RLHF 학습을 가속한다#Triton#RLHF#Kernel Optimization#Axolotl2026년 3월 19일댓글 수 로딩 중
[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중