#Performance Tuning

5개의 포스트

[sglang] Cutlass FP8 Blockwise GEMM 최적화: 불필요한 패딩 제거로 GPU 성능 향상

Cutlass FP8 GEMM에서 반복적인 액티베이션 패딩을 제거하여 GPU 커널 오버헤드를 줄이고 처리량을 2.1% 개선한 최적화.

#SGLang #GPU Optimization #FP8 Quantization #Deep Learning Inference #Cutlass #Performance Tuning

2026년 6월 12일

[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선

Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석

#Mamba #Cache Optimization #Performance Tuning #LLM #sglang

2026년 3월 31일

[sglang] GC Threshold 인자 추가: Python 가비지 컬렉션 주기 튜닝 지원

SGLang 서버에 --gc-threshold 인자를 추가하여 Python GC(Garbage Collection)의 수집 빈도를 사용자가 직접 제어할 수 있도록 한 기능 분석.

#SGLang #Python GC #Performance Tuning #Memory Management #Server Args

2026년 3월 27일

[논문리뷰] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

본 논문은 GPU 커널 최적화의 고도로 전문화된 특성과 torch.compile 과 같은 기존 컴파일러 기반 시스템 대비 LLM의 경쟁력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #CUDA Kernel Generation #Agentic Reinforcement Learning #Large Language Models (LLMs)#GPU Optimization #Performance Tuning #Deep Learning Infrastructure #Program Synthesis

2026년 3월 1일

[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지

bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다

#Triton #MXFP #Shared Memory #Matrix Multiplication #Performance Tuning

2025년 12월 9일