[sglang] Cutlass FP8 Blockwise GEMM 최적화: 불필요한 패딩 제거로 GPU 성능 향상Cutlass FP8 GEMM에서 반복적인 액티베이션 패딩을 제거하여 GPU 커널 오버헤드를 줄이고 처리량을 2.1% 개선한 최적화.#SGLang#GPU Optimization#FP8 Quantization#Deep Learning Inference#Cutlass#Performance Tuning2026년 6월 12일댓글 수 로딩 중
[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석#Mamba#Cache Optimization#Performance Tuning#LLM#sglang2026년 3월 31일댓글 수 로딩 중
[sglang] GC Threshold 인자 추가: Python 가비지 컬렉션 주기 튜닝 지원SGLang 서버에 --gc-threshold 인자를 추가하여 Python GC(Garbage Collection)의 수집 빈도를 사용자가 직접 제어할 수 있도록 한 기능 분석.#SGLang#Python GC#Performance Tuning#Memory Management#Server Args2026년 3월 27일댓글 수 로딩 중
[논문리뷰] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation본 논문은 GPU 커널 최적화의 고도로 전문화된 특성과 torch.compile 과 같은 기존 컴파일러 기반 시스템 대비 LLM의 경쟁력 부족 문제를 해결하는 것을 목표로 합니다.#Review#CUDA Kernel Generation#Agentic Reinforcement Learning#Large Language Models (LLMs)#GPU Optimization#Performance Tuning#Deep Learning Infrastructure#Program Synthesis2026년 3월 1일댓글 수 로딩 중
[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다#Triton#MXFP#Shared Memory#Matrix Multiplication#Performance Tuning2025년 12월 9일댓글 수 로딩 중