#CUDA Graphs

5개의 포스트

[논문리뷰] Memory-Bound but Not Bandwidth-Limited: The Physical AI Inference Gap in Batch-1 LLM Decode

본 논문은 Physical AI 환경에서 필수적인 batch-1 LLM decode가 단순히 HBM Bandwidth에 의해서만 제한되는 것이 아니라, CPU-side Launch Overhead에 의해 크게 제약받고 있음을 밝힙니다.

#Review #Batch-1 Inference #LLM Decode #HBM Bandwidth #CUDA Graphs #Launch Overhead #Physical AI

2026년 5월 31일

[SGLang] CUDA Graphs: 커널 런칭 오버헤드 제거

SGLang의 CUDA Graph Runner를 분석한다. GPU 커널 런칭 오버헤드를 제거하는 CUDA Graph 캡처/재생 메커니즘, 배치 크기별 그래프 관리, 메모리 풀 통합을 코드와 함께 살펴본다.

#sglang #CUDA Graphs #Kernel Launch #GPU Optimization

2026년 4월 11일

[faster-qwen3-tts] SDPA 전환으로 BF16 StaticCache hidden-state 발산 수정

eager attention에서 SDPA로 전환하여 StaticCache 패딩 길이에 따른 BF16 hidden-state 발산 문제를 해결한다

#faster-qwen3-tts #TTS #CUDA Graphs #Attention

2026년 3월 4일

[faster-qwen3-tts] 공식 Qwen3-TTS 기반으로 포팅 및 벤치마크 대폭 향상

커뮤니티 streaming fork에서 공식 Qwen3-TTS 저장소로 기반을 전환하고, repetition penalty 벡터화로 RTF 5.56 달성

#faster-qwen3-tts #TTS #CUDA Graphs #Performance

2026년 2월 20일

[faster-qwen3-tts] CUDA Graphs 기반 Qwen3-TTS 래퍼를 설치 가능한 Python 패키지로 구조화

Qwen3-TTS CUDA Graphs 최적화 코드를 pip 설치 가능한 Python 패키지로 재구성하고, 스트리밍 생성 API와 벤치마크 스위트를 추가한 사례를 분석합니다.

#Qwen3-TTS #CUDA Graphs #Python Package #TTS #Streaming #PyTorch

2026년 2월 17일