#CUDA

35개의 포스트

[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결

가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.

#SGLang #PyTorch #CUDA #Optimization #LLM

2026년 4월 25일

[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석

FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.

#FlashInfer #Distributed Computing #CUDA #GEMM #Performance Optimization

2026년 4월 24일

[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원

Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.

#Triton #CUDA #LLM #SGLang #Optimization #DeepLearning

2026년 4월 22일

[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성

Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.

#vLLM #Gemma4 #CUDA #Performance-Optimization #PyTorch

2026년 4월 17일

[vllm] vLLM, H100에서의 QKNorm+RoPE 커널 최적화: 더 나은 성능을 위한 동적 워크로드 분배

vLLM의 QKNorm+RoPE 융합 커널 성능 개선: 동적 워크로드 분배로 H100에서의 효율성 증대

#vLLM #CUDA #Kernel Optimization #H100 #Transformer

2026년 4월 13일

[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입

SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.

#SGLang #LLM #Quantization #CUDA #KernelOptimization

2026년 4월 11일

[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선

Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.

#vLLM #CUDA #Performance #Triton #DeepLearning

2026년 4월 10일

[vLLM] GPUModelRunner: GPU 모델 포워드 패스

vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.

#vllm #GPU #model runner #forward pass #CUDA

2026년 4월 7일

[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선

sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석

#sglang #performance #optimization #torch.compile #fusion #CUDA

2026년 4월 7일

[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화

vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.

#vLLM #CUDA #Performance #KV-Cache #Optimization

2026년 4월 3일

[vllm] [vLLM] GPU-CPU 동기화 병목 제거: prepare_chunk_indices 최적화 분석

GDN Prefill 과정에서 발생하는 .tolist() 호출에 의한 GPU-CPU 동기화 병목을 제거하여 추론 효율성을 높인 사례를 분석합니다.

#vLLM #CUDA #Performance-Optimization #Deep-Learning #Triton

2026년 4월 3일

[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합

Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.

#SGLang #Triton #CUDA #LLM #Optimization

2026년 4월 2일

[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합

RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합

#SGLang #JIT Kernel #RMSNorm #CUDA #Performance

2026년 4월 1일

[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거

interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임

#SGLang #JIT Kernel #CUDA #RoPE #Performance

2026년 4월 1일

[sglang] sgl-kernel 레거시 경로 대규모 제거: AOT에서 JIT로의 전환 완성

SGLang에서 sgl-kernel AOT(Ahead-of-Time) 빌드 의존성 1,708줄을 삭제하고 JIT 커널만 남긴 대규모 정리 분석.

#SGLang #sgl-kernel #JIT #AOT #Cleanup #CUDA #C++

2026년 4월 1일

[triton] Proton CUPTI Graph Replay 힙 증가 재현 테스트 추가

CUDA graph replay 중 CUPTI 라이브러리의 메모리 누수를 체계적으로 재현하고 프로파일링하는 테스트 스크립트를 분석합니다.

#Triton #Proton #Profiling #CUDA #MemoryLeak

2026년 3월 31일

[sglang] 멀티프로세스 JIT 컴파일로 Custom All Reduce 테스트 속도 향상

SGLang의 custom all reduce 테스트에서 JIT 커널 컴파일을 멀티프로세스로 병렬화하여 테스트 시간을 500초에서 300초로 단축한 최적화 분석.

#SGLang #Testing #JIT Compilation #Multiprocessing #All Reduce #CUDA

2026년 3월 31일

[sglang] CI 테스트 등록 누락 수정: JIT 커널 테스트/벤치마크 파일 등록

SGLang CI에서 누락된 JIT 커널 테스트 및 벤치마크 파일 4개에 register_cuda_ci 호출을 추가하여 CI 커버리지를 완성한 분석.

#SGLang #CI #JIT Kernel #Testing #CUDA

2026년 3월 27일

[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가

SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.

#SGLang #CUDA #Diffusion #RoPE #RMSNorm #Kernel Fusion #GPU Optimization

2026년 3월 27일

[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소

SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.

#SGLang #CUDA #Kernel Optimization #RMSNorm #Diffusion #GPU

2026년 3월 27일

[sglang] sgl-kernel Wheel METADATA/WHEEL 태그를 CUDA 파일명과 정렬

sgl-kernel의 wheel 빌드에서 파일명에 +cu124 suffix를 추가할 때 내부 METADATA Version과 WHEEL 태그도 함께 수정하여 pip 설치 오류를 해결한 분석.

#SGLang #sgl-kernel #Python Packaging #Wheel #CUDA #CI/CD

2026년 3월 26일

[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입

FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention #CUDA #Optimization #LLM

2026년 3월 25일

[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리

HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.

#SGLang #LLM #KV Cache #Sparse Attention #CUDA

2026년 3월 23일

[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입

SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.

#CUDA #CUTLASS #GEMM #FP8 #SGLang #SM120

2026년 3월 22일

[triton] ConSan Multi-CTA 지원 추가

Triton의 Concurrency Sanitizer(ConSan)에 multi-CTA 클러스터 환경 지원을 추가하여, 클러스터 내 여러 CTA가 공유하는 scratch memory 상태를 올바르게 추적하도록 개선한 PR을 분석합니다.

#Triton #GPU Compiler #Concurrency Sanitizer #Multi-CTA #CUDA

2026년 3월 19일

[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화

Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법

#Triton #GPU #CUDA #MatMul #HighPerformanceComputing

2026년 3월 13일

[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교

Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다

#Triton #CUDA #Matrix Multiplication #FP8 #Blackwell

2026년 3월 13일

[triton] PyTorch 없이 Triton CUDA 백엔드 독립 사용 지원

Triton의 CUDA 백엔드에서 PyTorch 의존성을 제거하여, 순수 Python 환경에서도 GPU 커널을 컴파일하고 실행할 수 있도록 한 PR을 분석합니다.

#Triton #CUDA #PyTorch #Runtime #Independence

2026년 3월 5일

[pytorch] CI: Inductor 벤치마크 CI 작업을 CUDA 12.8에서 13.0으로 통합 전환

PyTorch Inductor의 CI 벤치마크 워크플로우에서 CUDA 12.8과 13.0 이중 빌드를 CUDA 13.0 단일 빌드로 통합하여 CI 리소스를 절약한 사례를 분석합니다.

#PyTorch #CI #CUDA #GitHub Actions #Inductor #Benchmarks

2026년 2월 27일

[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환

PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.

#PyTorch #vLLM #CI #CUDA #Blackwell #GitHub Actions

2026년 2월 25일

[triton] 컴파일된 커널 모듈 명시적 unload 지원

Triton 런타임에서 컴파일된 커널 모듈을 명시적으로 unload할 수 있도록 __del__ 메서드와 unload_module 드라이버 함수를 추가한 PR을 분석합니다.

#Triton #Runtime #Memory Management #CUDA #HIP

2026년 2월 17일

[triton] CUDA 가변 인자 Pre-compiled Launcher로 커널 런치 오버헤드 제거

Triton의 CUDA/HIP 커널 런처를 Python 문자열 치환 방식에서 C 기반 가변 인자 방식으로 전환하여 런치 오버헤드를 제거한 PR을 분석합니다.

#Triton #CUDA #HIP #Runtime #Performance

2026년 1월 21일

[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상

Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.

#Triton #GPU #CUDA #Optimization #Matmul

2026년 1월 20일

[triton] Triton PROTON: CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack API를 추가하여 성능을 대폭 개선

Triton PROTON 라이브러리의 CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack 직렬화 API를 추가하여 성능을 3배~10배 향상시킨 코드 변경 분석.

#Triton #PROTON #CUDA #Profiling #Optimization #MsgPack #C++#Python

2025년 12월 19일

[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

arXiv에 게시된 'CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #CUDA #Matrix Multiplication #Reinforcement Learning #LLMs #Kernel Optimization #HGEMM #GPU Performance #cuBLAS

2025년 12월 2일