[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합#SGLang#JIT Kernel#RMSNorm#CUDA#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.#SGLang#CUDA#Diffusion#RoPE#RMSNorm#Kernel Fusion#GPU Optimization2026년 3월 27일댓글 수 로딩 중
[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.#SGLang#CUDA#Kernel Optimization#RMSNorm#Diffusion#GPU2026년 3월 27일댓글 수 로딩 중
[Axolotl] Qwen 3.5 모델 Liger 커널 지원 및 fused RMSNorm+Gated 커널 추가Axolotl에 Qwen 3.5 / Qwen 3.5 MoE 모델용 Liger FLCE 커널 지원과 fused RMSNorm+SiLU gate Triton 커널을 추가한 분석.#Axolotl#Liger Kernel#Qwen 3.5#RMSNorm#Triton#LLM Training#Performance2026년 3월 22일댓글 수 로딩 중
[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive LearningarXiv에 게시된 'SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning' 논문에 대한 자세한 리뷰입니다.#Review#Progressive Learning#Width Expansion#Signal Preservation#Symmetry Breaking#LLM#Training Stability#MoE#RMSNorm2026년 2월 2일댓글 수 로딩 중