[onnxruntime] ONNX Runtime CUDA MoE: 소규모 배치 디코딩을 위한 SoftmaxTopK 라우터 최적화ONNX Runtime CUDA MoE에서 소규모 배치 디코딩 시 SoftmaxTopK 라우터 성능을 개선하는 방법을 기술합니다.#ONNX Runtime#CUDA#MoE#최적화#성능2026년 6월 12일댓글 수 로딩 중
[sglang] SGLang Diffusion 모델의 FP8 GEMM 최적화: 41.5% 성능 향상 달성Ideogram4 모델의 FP8 weight-only linear 연산을 Fused W8A8 FP8 GEMM으로 교체하여 추론 속도를 1.7배 개선했습니다.#SGLang#Diffusion#FP8#GEMM#Optimization#CUDA2026년 6월 11일댓글 수 로딩 중
[sglang] SGLang LTX-2 VAE 디코딩 성능 최적화: channels_last_3d 도입으로 4.5배 속도 향상LTX-2 VAE 디코딩 과정에서 channels_last_3d 메모리 레이아웃을 적용하여 Conv3d 연산 속도를 4.5배 높이고 메모리 사용량을 13.5% 절감했습니다.#SGLang#DeepLearning#Optimization#VAE#CUDA2026년 6월 9일댓글 수 로딩 중
[vllm] vLLM의 GDN 어텐션 최적화: Prefill과 Decode 배치 분리를 통한 2배 성능 향상Mixed 배치에서 Prefill과 Decode를 분리하여 GDN 어텐션 연산 효율을 극대화하고 1.93배의 커널 속도 향상을 달성했습니다.#vLLM#LLM#Performance#Optimization#CUDA#GDN2026년 6월 6일댓글 수 로딩 중
[flashinfer] FlashInfer의 MoE Routing 성능 최적화: Batcher's Odd-Even Merge Sort 도입FlashInfer의 MoE Top-K 연산에서 64비트 리덕션 최적화 및 비-2의 거듭제곱 정렬을 Batcher's 네트워크로 개선하여 성능을 극대화했습니다.#FlashInfer#CUDA#MoE#Optimization#GPU#Sorting2026년 6월 4일댓글 수 로딩 중
[flashinfer] FlashInfer FP8 KV-Cache Prefill 성능 최적화: Repacking 기법을 통한 오버헤드 제거FP8 KV-cache의 dequantization 오버헤드를 BF16 staging buffer로 제거하여 Prefill 성능을 최대 1.3배 향상시켰습니다.#FlashInfer#CUDA#FP8#LLM#Optimization2026년 6월 2일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CUDA Graph: 진정한 비동기 추론을 위한 동기화 지점 제거CUDA Graph Replay 시 강제되던 동기화 지점을 제거하여, IO Binding과 함께 완전한 비동기 GPU 추론 파이프라인을 구축하는 최적화 기법을 소개합니다.#ONNX Runtime#CUDA#Performance Optimization#Async Inference#CUDA Graph2026년 6월 2일댓글 수 로딩 중
[vllm] vLLM의 FP8 Scaled MM 최적화: Padding 제거를 통한 20% 성능 향상vLLM에서 FP8 행렬 곱셈 시 불필요한 Padding을 제거하여 커널 성능을 약 20% 개선한 사례를 분석합니다.#vLLM#CUDA#Optimization#FP8#DeepLearning2026년 6월 1일댓글 수 로딩 중
[vllm] [vLLM 분석] DeepSeek V4의 Sparse FP8 Compressor 커널 최적화: CuteDSL을 통한 성능 극대화vLLM에서 DeepSeek V4의 KV 캐시 압축 효율을 높이기 위해 CuteDSL 커널을 최적화하여 최대 1.67배의 성능 향상을 달성한 과정을 살펴봅니다.#vLLM#DeepSeek-V4#CUDA#CuteDSL#Kernel-Optimization#FP82026년 6월 1일댓글 수 로딩 중
[sglang] SGLang의 KV-Canary JIT 커널 도입: 효율적인 KV 캐시 검증 최적화SGLang에 도입된 KV-Canary JIT 커널을 통해 대규모 언어 모델의 KV 캐시 무결성을 효율적으로 검증하는 방법을 분석합니다.#SGLang#CUDA#JIT#LLM#KV-Cache2026년 5월 31일댓글 수 로딩 중
[sglang] SGLang 스케줄러 최적화: input_ids H2D 지연 처리 및 FutureMap 통합SGLang의 prefill input_ids H2D를 forward stream으로 지연시키고 FutureMap을 통해 입력을 통합하여 스케줄링 효율을 개선했습니다.#SGLang#LLM#Scheduler#Optimization#CUDA2026년 5월 30일댓글 수 로딩 중
[vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기vLLM에서 MiniMax-M2 모델의 MoE Gate 연산을 Fused Kernel로 최적화하여 저지연 환경의 성능을 대폭 개선한 사례를 분석합니다.#vLLM#CUDA#MoE#Optimization#MiniMax-M2#LLM Serving2026년 5월 30일댓글 수 로딩 중
[sglang] SGLang의 add_constant 커널 최적화: 아키텍처 인지 벡터화(Vectorization) 도입대규모 텐서 연산 시 벡터화된 커널을 사용하여 add_constant 성능을 최대 35% 향상시키는 최적화 기법을 분석합니다.#SGLang#CUDA#KernelOptimization#Vectorization#H2002026년 5월 30일댓글 수 로딩 중
[flashinfer] FlashInfer MLA 커널 최적화: num_heads < 128 환경에서의 성능 극대화Blackwell GPU에서 MLA 디코드 커널의 num_heads < 128 성능을 개선하기 위해 seqlen_q를 헤드 차원으로 폴딩하는 최적화 기법을 소개합니다.#FlashInfer#GPU#MLA#Optimization#Blackwell#CUDA2026년 5월 29일댓글 수 로딩 중
[sglang] [SGLang] Blackwell(B200)에서 Diffusion Attention 성능을 7배 끌어올리는 Triton 커널 최적화 분석PyTorch SDPA의 마스크 처리 한계를 Triton 커널 퓨전과 Varlen FlashAttention으로 극복하여 B200에서 최대 21%의 성능 향상을 달성했습니다.#Triton#FlashAttention#Diffusion#CUDA#Performance Optimization#SGLang2026년 5월 28일댓글 수 로딩 중
[vllm] vLLM의 MoE Permute 최적화: 버퍼 사전 할당을 통한 성능 향상MoE 연산 시 빈번한 메모리 할당을 제거하여 소규모 배치에서 최대 14%의 성능 향상을 달성한 최적화 기법을 분석합니다.#vLLM#MoE#CUDA#PerformanceOptimization#DeepLearning2026년 5월 28일댓글 수 로딩 중
[triton] [Triton] Persistent Matmul 성능을 13% 향상시킨 정교한 Shared Memory 계산 기법 분석Shared Memory 계산 휴리스틱을 개선하여 TF32 Matmul에서 4-stage 파이프라이닝을 활성화하고 GB200 성능을 13% 끌어올린 사례를 분석합니다.#Triton#GPU#CUDA#Matmul#Optimization#Deep Learning2026년 5월 27일댓글 수 로딩 중
[vllm] [vLLM] W4A16 양자화 모델의 호환성 문제 해결: Triton 커널을 활용한 CUDA Fallback 구현Marlin 커널의 정렬 제약으로 인해 실행 불가능했던 W4A16 모델들을 Triton 커널 fallback을 통해 CUDA 환경에서도 지원하도록 개선했습니다.#vLLM#CUDA#Triton#Quantization#LLM Inference#W4A162026년 5월 27일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CUTLASS FMHA: BiasLoader 정렬 문제 해결로 안정성 및 호환성 향상ONNX Runtime의 CUTLASS FMHA에서 BiasLoader의 정렬 문제를 해결하여 CUDA 커널의 안정성과 호환성을 개선했습니다.#ONNX Runtime#CUDA#CUTLASS#FMHA#최적화#성능2026년 5월 27일댓글 수 로딩 중
[sglang] SGLang의 MoE 성능 최적화: 512 전문가 모델을 위한 커널 최적화Qwen3.5-397B와 같은 대규모 MoE 모델을 위해 512 전문가를 지원하는 커널 최적화로 성능을 최대 4배 이상 향상시켰습니다.#SGLang#MoE#CUDA#Kernel Optimization#LLM2026년 5월 25일댓글 수 로딩 중
[sglang] [VLM 성능 최적화] Qwen-VL의 자잘한 H2D 오버헤드 줄이기: 단일 대형 전송으로의 전환Qwen-VL 모델에서 발생하는 빈번한 소규모 Host-to-Device(H2D) 전송을 통합하고, 불필요한 CPU 동기화를 제거하여 멀티모달 추론 성능을 개선한 사례를 분석합니다.#VLM#Qwen-VL#CUDA#Performance-Optimization#PyTorch#SGLang2026년 5월 24일댓글 수 로딩 중
[sglang] SGLang VLM 최적화: CUDA IPC Staging 오버헤드 제거를 통한 성능 향상VLM 입력 처리 시 불필요한 CUDA IPC 스테이징을 제거하여 TTFT 및 E2E 지연 시간을 개선한 최적화 사례입니다.#SGLang#VLM#CUDA#Optimization#Performance2026년 5월 24일댓글 수 로딩 중
[triton] Triton Reduce 커널 성능 최적화: Subtiling과 RowIdxs 도입Triton Reduce 커널의 성능을 향상시키기 위해 subtiling과 rowidxs 기법을 도입한 코드 변경 분석.#Triton#Performance Optimization#CUDA#Deep Learning#Kernel Tuning2026년 5월 24일댓글 수 로딩 중
[vllm] vLLM 기술 딥다이브: CUTLASS를 활용한 NVFP4 Linear 커널의 Batch Invariance 최적화vLLM에서 NVFP4 양자화 연산의 배치 크기 독립적 결과(Batch Invariance)를 보장하고 성능을 극대화한 CUTLASS 커널 개선 사례를 분석합니다.#vLLM#CUTLASS#NVFP4#CUDA#Optimization#Blackwell2026년 5월 23일댓글 수 로딩 중
[flashinfer] FlashInfer의 DeepSeek V4 Sparse MLA 최적화 분석DeepSeek V4의 Sparse MLA를 지원하기 위한 커널 최적화 및 가변 Top-K 처리 로직 개선 사항을 분석합니다.#FlashInfer#DeepSeek#CUDA#LLM#Optimization2026년 5월 21일댓글 수 로딩 중
[sglang] SGLang에서 torch.compile을 활용한 Wan 모델 추론 가속화torch.compile을 도입하여 MUSA 및 CUDA 환경에서 Wan 모델의 추론 성능을 최대 1.09배 향상시킨 최적화 사례를 분석합니다.#SGLang#torch.compile#MUSA#CUDA#Optimization2026년 5월 17일댓글 수 로딩 중
[sglang] SGLang의 MLA KV 캐시 쓰기 최적화: TMA Bulk-Store 도입TMA Bulk-Store와 Triton 커널 최적화를 통해 MLA KV 캐시 쓰기 성능을 최대 12배 향상시킨 기술적 여정.#SGLang#CUDA#Triton#LLM#Optimization#TMA2026년 5월 15일댓글 수 로딩 중
[triton] Triton 커널 최적화: Mask Sorting을 통한 Reduction 연산 가속화Triton의 reduction 연산에서 불필요한 루프 반복을 줄이기 위해 마스크를 기준으로 행을 정렬하고 루프 바운드를 최적화하는 기법을 분석합니다.#Triton#GPU Optimization#Deep Learning#CUDA#Kernel Programming2026년 5월 15일댓글 수 로딩 중
[vllm] Blackwell을 위한 새로운 MLA 백엔드: TOKENSPEED_MLA 분석 (DeepSeek R1 최적화)Blackwell(SM100) 아키텍처에서 DeepSeek R1의 MLA 성능을 극대화하는 TOKENSPEED_MLA 백엔드 도입 및 분석.#vLLM#DeepSeek-R1#MLA#Blackwell#CUDA#Performance-Optimization2026년 5월 14일댓글 수 로딩 중
[flashinfer] FlashInfer Mamba SSU 커널 최적화: Async State Prefetching과 Vectorized Load를 통한 성능 혁신FlashInfer의 Mamba SSU 커널이 Async State Prefetching, Vectorized Load 등으로 극적인 성능 향상을 이루었습니다.#FlashInfer#Mamba#SSU#Kernel Optimization#Triton#CUDA#Performance2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM W8W8 그룹 양자화 성능 최적화: 2D-Grid를 통한 Divmod 제거vLLM의 W8W8 그룹 양자화 커널에서 divmod 연산을 2D-grid로 대체하여 성능을 개선합니다.#vLLM#CUDA#GPU 최적화#양자화#성능#divmod#2D-grid2026년 5월 12일댓글 수 로딩 중
[onnxruntime] [ONNX Runtime] PagedAttention의 FA 경로 최적화 및 정확성 개선PagedAttention의 FA 경로에서 휴리스틱 기반 max_query_len을 실제 계산값으로 대체하여 성능 향상 및 CUDA 오류를 해결했습니다.#ONNXRuntime#CUDA#FlashAttention#Optimization#LLM2026년 5월 12일댓글 수 로딩 중
[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화vLLM에서 MLA 모델의 RoPE, KV Cache, q_concat 연산을 하나의 커널로 통합하여 추론 성능을 크게 향상시킨 최적화 기법을 분석합니다.#vLLM#LLM#CUDA#Optimization#MLA#DeepSeek-R12026년 5월 11일댓글 수 로딩 중
[sglang] SGLang의 MHC 파이프라인 최적화: 커널 퓨전과 DeepGemm 도입MHC 파이프라인에서 커널 퓨전과 DeepGemm을 활용해 연산 효율을 극대화하고 HBM 접근을 최소화하여 성능을 개선했습니다.#SGLang#CUDA#Triton#DeepGemm#Optimization2026년 5월 10일댓글 수 로딩 중
[sglang] SGLang의 FP4 GEMM 성능 최적화: CuTe DSL 백엔드 도입SGLang에 FlashInfer의 CuTe DSL 기반 FP4 GEMM 백엔드를 추가하여 SM100 아키텍처에서의 연산 성능을 최적화했습니다.#SGLang#FP4#GEMM#CUDA#CuTe#FlashInfer2026년 5월 9일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: PDL 도입과 안전한 CUDA 동기화로 DSV3.2/GLM-5 가속하기PDL(Programmatic Dependency Launch) 도입과 CUDA 커널의 메모리 배리어 수정을 통해 추론 지연 시간을 개선하고 안정성을 확보했습니다.#CUDA#SGLang#Performance Optimization#LLM Inference#Triton2026년 5월 9일댓글 수 로딩 중
[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.#vLLM#DeepSeekV4#CUDA#CuteDSL#KernelOptimization#GPUPerformance#MXFP4#Quantization2026년 5월 9일댓글 수 로딩 중
[flashinfer] FlashInfer의 Per-token NVFP4 Quantization 커널 최적화 분석FlashInfer의 NVFP4 양자화 커널 성능 개선: 블록 사이즈 최적화 및 Fast Math 제어 옵션 도입#FlashInfer#CUDA#Quantization#LLM#Performance2026년 5월 8일댓글 수 로딩 중
[flashinfer] FlashInfer, MoE 및 FP8 GEMM 성능 향상을 위한 커널 업데이트FlashInfer의 MoE 및 FP8 GEMM 커널 업데이트를 통해 성능을 최적화하고 호환성을 개선합니다.#FlashInfer#GEMM#MoE#FP8#CUDA#최적화2026년 5월 8일댓글 수 로딩 중
[flashinfer] NVIDIA Blackwell SM120을 위한 MoE Short-Decode 최적화 분석FlashInfer의 SM120 MoE 커널 업데이트를 통해 단일 토큰 디코딩 성능을 극대화하는 마이크로 커널 최적화 기법을 살펴봅니다.#CUDA#MoE#Blackwell#Performance#Triton2026년 5월 7일댓글 수 로딩 중
[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.#LLM#Quantization#CUDA#DeepSeek-V4#SGLang#Marlin2026년 5월 7일댓글 수 로딩 중
[flashinfer] FlashInfer BF16 XQA MLA 커널의 10가지 버그 수정 및 최적화 분석FlashInfer의 BF16 XQA MLA 커널에서 발생한 10가지 치명적인 버그를 수정하고 성능을 개선한 PR을 분석합니다.#FlashInfer#CUDA#Kernel Optimization#BF16#XQA#MLA2026년 5월 7일댓글 수 로딩 중
[flashinfer] FlashInfer, CUDA 그래프 호환성을 높이고 성능을 최적화하다: TRT-LLM FMHA v2 통합 및 불필요한 H2D 제거FlashInfer가 TRT-LLM FMHA v2를 통합하고 CUDA 그래프 호환성을 개선하여 성능을 최적화한 PR을 분석합니다.#FlashInfer#TRT-LLM#CUDA#최적화#성능#LLM2026년 5월 6일댓글 수 로딩 중
[flashinfer] FlashInfer: Wide Vector 최적화와 1900줄의 코드 삭제로 달성한 성능 개선gdn_wide_vec_kernel 도입과 불필요한 레거시 커널 제거를 통해 B200에서 최대 82%의 DRAM 대역폭 효율을 달성한 사례를 분석합니다.#CUDA#PyTorch#FlashInfer#Performance-Optimization#LLM2026년 5월 6일댓글 수 로딩 중
[flashinfer] FlashInfer의 DiT 최적화: SageAttention과 Int8/FP8 혼합 정밀도 커널 도입 분석FlashInfer에 DiT 모델 최적화를 위한 SageAttention 스케일링 팩터 지원 및 Int8/FP8 혼합 정밀도 커널이 추가되었습니다.#FlashInfer#CUDA#DiT#SageAttention#Quantization#DeepLearning2026년 5월 1일댓글 수 로딩 중
[sglang] CUDA 그래프 호환성을 위한 LoRA 연산 최적화: 스칼라 할당 대신 슬라이스 제로화 사용CUDA 그래프 캡처를 방해하는 CPU-GPU 동기화 지점을 제거하여 LoRA 연산의 효율성을 높였습니다.#CUDA#PyTorch#Optimization#LoRA#Performance2026년 4월 30일댓글 수 로딩 중
[vllm] vLLM chunk_kda 커널의 숨겨진 상태(h) 레이아웃 불일치 버그 수정 및 정확도 개선vLLM의 chunk_kda 커널에서 h 행렬 레이아웃 불일치 버그를 수정하여 모델 정확도를 크게 개선합니다.#vLLM#CUDA#Triton#Kernel#Bugfix#Deep Learning#Optimization2026년 4월 30일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.#SGLang#PyTorch#CUDA#Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.#FlashInfer#Distributed Computing#CUDA#GEMM#Performance Optimization2026년 4월 24일댓글 수 로딩 중
[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.#Triton#CUDA#LLM#SGLang#Optimization#DeepLearning2026년 4월 22일댓글 수 로딩 중
[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.#vLLM#Gemma4#CUDA#Performance-Optimization#PyTorch2026년 4월 17일댓글 수 로딩 중
[vllm] vLLM, H100에서의 QKNorm+RoPE 커널 최적화: 더 나은 성능을 위한 동적 워크로드 분배vLLM의 QKNorm+RoPE 융합 커널 성능 개선: 동적 워크로드 분배로 H100에서의 효율성 증대#vLLM#CUDA#Kernel Optimization#H100#Transformer2026년 4월 13일댓글 수 로딩 중
[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.#SGLang#LLM#Quantization#CUDA#KernelOptimization2026년 4월 11일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.#vLLM#CUDA#Performance#Triton#DeepLearning2026년 4월 10일댓글 수 로딩 중
[vLLM] GPUModelRunner: GPU 모델 포워드 패스vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.#vllm#GPU#model runner#forward pass#CUDA2026년 4월 7일댓글 수 로딩 중
[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석#sglang#performance#optimization#torch.compile#fusion#CUDA2026년 4월 7일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.#vLLM#CUDA#Performance#KV-Cache#Optimization2026년 4월 3일댓글 수 로딩 중
[vllm] [vLLM] GPU-CPU 동기화 병목 제거: prepare_chunk_indices 최적화 분석GDN Prefill 과정에서 발생하는 .tolist() 호출에 의한 GPU-CPU 동기화 병목을 제거하여 추론 효율성을 높인 사례를 분석합니다.#vLLM#CUDA#Performance-Optimization#Deep-Learning#Triton2026년 4월 3일댓글 수 로딩 중
[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.#SGLang#Triton#CUDA#LLM#Optimization2026년 4월 2일댓글 수 로딩 중
[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합#SGLang#JIT Kernel#RMSNorm#CUDA#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임#SGLang#JIT Kernel#CUDA#RoPE#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] sgl-kernel 레거시 경로 대규모 제거: AOT에서 JIT로의 전환 완성SGLang에서 sgl-kernel AOT(Ahead-of-Time) 빌드 의존성 1,708줄을 삭제하고 JIT 커널만 남긴 대규모 정리 분석.#SGLang#sgl-kernel#JIT#AOT#Cleanup#CUDA#C++2026년 4월 1일댓글 수 로딩 중
[triton] Proton CUPTI Graph Replay 힙 증가 재현 테스트 추가CUDA graph replay 중 CUPTI 라이브러리의 메모리 누수를 체계적으로 재현하고 프로파일링하는 테스트 스크립트를 분석합니다.#Triton#Proton#Profiling#CUDA#MemoryLeak2026년 3월 31일댓글 수 로딩 중
[sglang] 멀티프로세스 JIT 컴파일로 Custom All Reduce 테스트 속도 향상SGLang의 custom all reduce 테스트에서 JIT 커널 컴파일을 멀티프로세스로 병렬화하여 테스트 시간을 500초에서 300초로 단축한 최적화 분석.#SGLang#Testing#JIT Compilation#Multiprocessing#All Reduce#CUDA2026년 3월 31일댓글 수 로딩 중
[sglang] CI 테스트 등록 누락 수정: JIT 커널 테스트/벤치마크 파일 등록SGLang CI에서 누락된 JIT 커널 테스트 및 벤치마크 파일 4개에 register_cuda_ci 호출을 추가하여 CI 커버리지를 완성한 분석.#SGLang#CI#JIT Kernel#Testing#CUDA2026년 3월 27일댓글 수 로딩 중
[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.#SGLang#CUDA#Diffusion#RoPE#RMSNorm#Kernel Fusion#GPU Optimization2026년 3월 27일댓글 수 로딩 중
[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.#SGLang#CUDA#Kernel Optimization#RMSNorm#Diffusion#GPU2026년 3월 27일댓글 수 로딩 중
[sglang] sgl-kernel Wheel METADATA/WHEEL 태그를 CUDA 파일명과 정렬sgl-kernel의 wheel 빌드에서 파일명에 +cu124 suffix를 추가할 때 내부 METADATA Version과 WHEEL 태그도 함께 수정하여 pip 설치 오류를 해결한 분석.#SGLang#sgl-kernel#Python Packaging#Wheel#CUDA#CI/CD2026년 3월 26일댓글 수 로딩 중
[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.#SGLang#FlashAttention#CUDA#Optimization#LLM2026년 3월 25일댓글 수 로딩 중
[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.#SGLang#LLM#KV Cache#Sparse Attention#CUDA2026년 3월 23일댓글 수 로딩 중
[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.#CUDA#CUTLASS#GEMM#FP8#SGLang#SM1202026년 3월 22일댓글 수 로딩 중
[triton] ConSan Multi-CTA 지원 추가Triton의 Concurrency Sanitizer(ConSan)에 multi-CTA 클러스터 환경 지원을 추가하여, 클러스터 내 여러 CTA가 공유하는 scratch memory 상태를 올바르게 추적하도록 개선한 PR을 분석합니다.#Triton#GPU Compiler#Concurrency Sanitizer#Multi-CTA#CUDA2026년 3월 19일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법#Triton#GPU#CUDA#MatMul#HighPerformanceComputing2026년 3월 13일댓글 수 로딩 중
[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다#Triton#CUDA#Matrix Multiplication#FP8#Blackwell2026년 3월 13일댓글 수 로딩 중
[triton] PyTorch 없이 Triton CUDA 백엔드 독립 사용 지원Triton의 CUDA 백엔드에서 PyTorch 의존성을 제거하여, 순수 Python 환경에서도 GPU 커널을 컴파일하고 실행할 수 있도록 한 PR을 분석합니다.#Triton#CUDA#PyTorch#Runtime#Independence2026년 3월 5일댓글 수 로딩 중
[pytorch] CI: Inductor 벤치마크 CI 작업을 CUDA 12.8에서 13.0으로 통합 전환PyTorch Inductor의 CI 벤치마크 워크플로우에서 CUDA 12.8과 13.0 이중 빌드를 CUDA 13.0 단일 빌드로 통합하여 CI 리소스를 절약한 사례를 분석합니다.#PyTorch#CI#CUDA#GitHub Actions#Inductor#Benchmarks2026년 2월 27일댓글 수 로딩 중
[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.#PyTorch#vLLM#CI#CUDA#Blackwell#GitHub Actions2026년 2월 25일댓글 수 로딩 중
[triton] 컴파일된 커널 모듈 명시적 unload 지원Triton 런타임에서 컴파일된 커널 모듈을 명시적으로 unload할 수 있도록 __del__ 메서드와 unload_module 드라이버 함수를 추가한 PR을 분석합니다.#Triton#Runtime#Memory Management#CUDA#HIP2026년 2월 17일댓글 수 로딩 중
[triton] CUDA 가변 인자 Pre-compiled Launcher로 커널 런치 오버헤드 제거Triton의 CUDA/HIP 커널 런처를 Python 문자열 치환 방식에서 C 기반 가변 인자 방식으로 전환하여 런치 오버헤드를 제거한 PR을 분석합니다.#Triton#CUDA#HIP#Runtime#Performance2026년 1월 21일댓글 수 로딩 중
[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.#Triton#GPU#CUDA#Optimization#Matmul2026년 1월 20일댓글 수 로딩 중
[triton] Triton PROTON: CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack API를 추가하여 성능을 대폭 개선Triton PROTON 라이브러리의 CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack 직렬화 API를 추가하여 성능을 3배~10배 향상시킨 코드 변경 분석.#Triton#PROTON#CUDA#Profiling#Optimization#MsgPack#C++#Python2025년 12월 19일댓글 수 로딩 중
[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중