[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.#SGLang#PyTorch#CUDA#Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.#FlashInfer#Distributed Computing#CUDA#GEMM#Performance Optimization2026년 4월 24일댓글 수 로딩 중
[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.#Triton#CUDA#LLM#SGLang#Optimization#DeepLearning2026년 4월 22일댓글 수 로딩 중
[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.#vLLM#Gemma4#CUDA#Performance-Optimization#PyTorch2026년 4월 17일댓글 수 로딩 중
[vllm] vLLM, H100에서의 QKNorm+RoPE 커널 최적화: 더 나은 성능을 위한 동적 워크로드 분배vLLM의 QKNorm+RoPE 융합 커널 성능 개선: 동적 워크로드 분배로 H100에서의 효율성 증대#vLLM#CUDA#Kernel Optimization#H100#Transformer2026년 4월 13일댓글 수 로딩 중
[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.#SGLang#LLM#Quantization#CUDA#KernelOptimization2026년 4월 11일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.#vLLM#CUDA#Performance#Triton#DeepLearning2026년 4월 10일댓글 수 로딩 중
[vLLM] GPUModelRunner: GPU 모델 포워드 패스vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.#vllm#GPU#model runner#forward pass#CUDA2026년 4월 7일댓글 수 로딩 중
[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석#sglang#performance#optimization#torch.compile#fusion#CUDA2026년 4월 7일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.#vLLM#CUDA#Performance#KV-Cache#Optimization2026년 4월 3일댓글 수 로딩 중
[vllm] [vLLM] GPU-CPU 동기화 병목 제거: prepare_chunk_indices 최적화 분석GDN Prefill 과정에서 발생하는 .tolist() 호출에 의한 GPU-CPU 동기화 병목을 제거하여 추론 효율성을 높인 사례를 분석합니다.#vLLM#CUDA#Performance-Optimization#Deep-Learning#Triton2026년 4월 3일댓글 수 로딩 중
[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.#SGLang#Triton#CUDA#LLM#Optimization2026년 4월 2일댓글 수 로딩 중
[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합#SGLang#JIT Kernel#RMSNorm#CUDA#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임#SGLang#JIT Kernel#CUDA#RoPE#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] sgl-kernel 레거시 경로 대규모 제거: AOT에서 JIT로의 전환 완성SGLang에서 sgl-kernel AOT(Ahead-of-Time) 빌드 의존성 1,708줄을 삭제하고 JIT 커널만 남긴 대규모 정리 분석.#SGLang#sgl-kernel#JIT#AOT#Cleanup#CUDA#C++2026년 4월 1일댓글 수 로딩 중
[triton] Proton CUPTI Graph Replay 힙 증가 재현 테스트 추가CUDA graph replay 중 CUPTI 라이브러리의 메모리 누수를 체계적으로 재현하고 프로파일링하는 테스트 스크립트를 분석합니다.#Triton#Proton#Profiling#CUDA#MemoryLeak2026년 3월 31일댓글 수 로딩 중
[sglang] 멀티프로세스 JIT 컴파일로 Custom All Reduce 테스트 속도 향상SGLang의 custom all reduce 테스트에서 JIT 커널 컴파일을 멀티프로세스로 병렬화하여 테스트 시간을 500초에서 300초로 단축한 최적화 분석.#SGLang#Testing#JIT Compilation#Multiprocessing#All Reduce#CUDA2026년 3월 31일댓글 수 로딩 중
[sglang] CI 테스트 등록 누락 수정: JIT 커널 테스트/벤치마크 파일 등록SGLang CI에서 누락된 JIT 커널 테스트 및 벤치마크 파일 4개에 register_cuda_ci 호출을 추가하여 CI 커버리지를 완성한 분석.#SGLang#CI#JIT Kernel#Testing#CUDA2026년 3월 27일댓글 수 로딩 중
[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.#SGLang#CUDA#Diffusion#RoPE#RMSNorm#Kernel Fusion#GPU Optimization2026년 3월 27일댓글 수 로딩 중
[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.#SGLang#CUDA#Kernel Optimization#RMSNorm#Diffusion#GPU2026년 3월 27일댓글 수 로딩 중
[sglang] sgl-kernel Wheel METADATA/WHEEL 태그를 CUDA 파일명과 정렬sgl-kernel의 wheel 빌드에서 파일명에 +cu124 suffix를 추가할 때 내부 METADATA Version과 WHEEL 태그도 함께 수정하여 pip 설치 오류를 해결한 분석.#SGLang#sgl-kernel#Python Packaging#Wheel#CUDA#CI/CD2026년 3월 26일댓글 수 로딩 중
[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.#SGLang#FlashAttention#CUDA#Optimization#LLM2026년 3월 25일댓글 수 로딩 중
[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.#SGLang#LLM#KV Cache#Sparse Attention#CUDA2026년 3월 23일댓글 수 로딩 중
[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.#CUDA#CUTLASS#GEMM#FP8#SGLang#SM1202026년 3월 22일댓글 수 로딩 중
[triton] ConSan Multi-CTA 지원 추가Triton의 Concurrency Sanitizer(ConSan)에 multi-CTA 클러스터 환경 지원을 추가하여, 클러스터 내 여러 CTA가 공유하는 scratch memory 상태를 올바르게 추적하도록 개선한 PR을 분석합니다.#Triton#GPU Compiler#Concurrency Sanitizer#Multi-CTA#CUDA2026년 3월 19일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법#Triton#GPU#CUDA#MatMul#HighPerformanceComputing2026년 3월 13일댓글 수 로딩 중
[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다#Triton#CUDA#Matrix Multiplication#FP8#Blackwell2026년 3월 13일댓글 수 로딩 중
[triton] PyTorch 없이 Triton CUDA 백엔드 독립 사용 지원Triton의 CUDA 백엔드에서 PyTorch 의존성을 제거하여, 순수 Python 환경에서도 GPU 커널을 컴파일하고 실행할 수 있도록 한 PR을 분석합니다.#Triton#CUDA#PyTorch#Runtime#Independence2026년 3월 5일댓글 수 로딩 중
[pytorch] CI: Inductor 벤치마크 CI 작업을 CUDA 12.8에서 13.0으로 통합 전환PyTorch Inductor의 CI 벤치마크 워크플로우에서 CUDA 12.8과 13.0 이중 빌드를 CUDA 13.0 단일 빌드로 통합하여 CI 리소스를 절약한 사례를 분석합니다.#PyTorch#CI#CUDA#GitHub Actions#Inductor#Benchmarks2026년 2월 27일댓글 수 로딩 중
[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.#PyTorch#vLLM#CI#CUDA#Blackwell#GitHub Actions2026년 2월 25일댓글 수 로딩 중
[triton] 컴파일된 커널 모듈 명시적 unload 지원Triton 런타임에서 컴파일된 커널 모듈을 명시적으로 unload할 수 있도록 __del__ 메서드와 unload_module 드라이버 함수를 추가한 PR을 분석합니다.#Triton#Runtime#Memory Management#CUDA#HIP2026년 2월 17일댓글 수 로딩 중
[triton] CUDA 가변 인자 Pre-compiled Launcher로 커널 런치 오버헤드 제거Triton의 CUDA/HIP 커널 런처를 Python 문자열 치환 방식에서 C 기반 가변 인자 방식으로 전환하여 런치 오버헤드를 제거한 PR을 분석합니다.#Triton#CUDA#HIP#Runtime#Performance2026년 1월 21일댓글 수 로딩 중
[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.#Triton#GPU#CUDA#Optimization#Matmul2026년 1월 20일댓글 수 로딩 중
[triton] Triton PROTON: CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack API를 추가하여 성능을 대폭 개선Triton PROTON 라이브러리의 CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack 직렬화 API를 추가하여 성능을 3배~10배 향상시킨 코드 변경 분석.#Triton#PROTON#CUDA#Profiling#Optimization#MsgPack#C++#Python2025년 12월 19일댓글 수 로딩 중
[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement LearningarXiv에 게시된 'CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중