[논문리뷰] AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel OptimizationarXiv에 게시된 'AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agent#Kernel Optimization#AI Accelerator#Amazon Trainium#Beam Search#Optimization Memory2026년 4월 19일댓글 수 로딩 중
[SGLang] LoRA Triton 커널: SGMV, SGEMM 최적화 연산SGLang의 LoRA Triton 커널을 분석한다. SGMV(Segmented Matrix-Vector), SGEMM(Segmented GEMM) 등 LoRA 전용 최적화 커널의 구현을 코드와 함께 살펴본다.#sglang#LoRA Triton#SGMV#SGEMM#Kernel Optimization2026년 4월 14일댓글 수 로딩 중
[vllm] vLLM, H100에서의 QKNorm+RoPE 커널 최적화: 더 나은 성능을 위한 동적 워크로드 분배vLLM의 QKNorm+RoPE 융합 커널 성능 개선: 동적 워크로드 분배로 H100에서의 효율성 증대#vLLM#CUDA#Kernel Optimization#H100#Transformer2026년 4월 13일댓글 수 로딩 중
[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.#SGLang#CUDA#Kernel Optimization#RMSNorm#Diffusion#GPU2026년 3월 27일댓글 수 로딩 중
[axolotl] Axolotl 커스텀 Triton 커널 — entropy/softmax 최대 5배 가속Triton 커널로 entropy_from_logits와 selective_log_softmax를 fuse하여 RLHF 학습을 가속한다#Triton#RLHF#Kernel Optimization#Axolotl2026년 3월 19일댓글 수 로딩 중
[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement LearningarXiv에 게시된 'CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중