#Blackwell

21개의 포스트

[vllm] Blackwell을 위한 새로운 MLA 백엔드: TOKENSPEED_MLA 분석 (DeepSeek R1 최적화)

Blackwell(SM100) 아키텍처에서 DeepSeek R1의 MLA 성능을 극대화하는 TOKENSPEED_MLA 백엔드 도입 및 분석.

#vLLM #DeepSeek-R1 #MLA #Blackwell #CUDA #Performance-Optimization

2026년 5월 14일

[flashinfer] NVIDIA Blackwell SM120을 위한 MoE Short-Decode 최적화 분석

FlashInfer의 SM120 MoE 커널 업데이트를 통해 단일 토큰 디코딩 성능을 극대화하는 마이크로 커널 최적화 기법을 살펴봅니다.

#CUDA #MoE #Blackwell #Performance #Triton

2026년 5월 7일

[sglang] SGLang DeepSeekV3 Router GEMM 최적화: FlashInfer 커널 도입 및 벤치마킹

DeepSeekV3 라우터 GEMM 성능 최적화를 위해 FlashInfer 커널을 도입하고 벤치마킹합니다.

#SGLang #DeepSeekV3 #FlashInfer #GEMM #최적화 #벤치마킹 #Blackwell #GPU

2026년 4월 4일

[sglang] Blackwell GPU에서 TRT-LLM 커널을 DSA 기본값으로 설정

Blackwell(SM>=10) GPU에서 dp_size 조건을 제거하고 TRT-LLM 커널을 항상 기본 사용하도록 변경

#SGLang #TRT-LLM #Blackwell #DeepSeek

2026년 4월 2일

[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리

SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.

#SGLang #FlashInfer #MXFP8 #CUTLASS #TensorRT-LLM #Quantization #Blackwell

2026년 4월 1일

[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가

SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.

#SGLang #CI #Benchmark #GB300 #Blackwell #NeMo Skills #VLM

2026년 3월 29일

[triton] Consumer Blackwell(sm_120)에서 PTX Codegen Segfault 수정

RTX 5070 Ti 등 consumer Blackwell GPU에서 sm_120a suffix 사용으로 인한 런타임 segfault를 수정한 사례를 분석합니다.

#Triton #NVIDIA #GPU #Blackwell #PTX #BugFix

2026년 3월 16일

[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교

Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다

#Triton #CUDA #Matrix Multiplication #FP8 #Blackwell

2026년 3월 13일

[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산

NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.

#Triton #NVIDIA #GPU #MultiCTA #Tutorial #Blackwell

2026년 3월 6일

[triton] Gluon tmem_load에서 Register Layout 자동 추론

get_tmem_reg_layout 호출을 제거하고 tensor memory descriptor에서 register layout을 자동으로 추론하도록 BC-breaking 변경을 적용한 사례를 분석합니다.

#Triton #Gluon #NVIDIA #Blackwell #TensorMemory

2026년 2월 28일

[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환

PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.

#PyTorch #vLLM #CI #CUDA #Blackwell #GitHub Actions

2026년 2월 25일

[triton] Triton Gluon을 활용한 Blackwell 아키텍처에서의 Multi-CTA 행렬 곱셈 최적화

Blackwell GPU의 Multi-CTA 환경에서 CLC(Cluster Launch Control)를 활용한 행렬 곱셈 성능 최적화 및 메모리 레이아웃 개선 분석.

#Triton #Blackwell #GPU #MatMul #HPC

2026년 2월 24일

[Triton] 2CTA Block Scale MMA with tcgen05.cp — 두 CTA 협력 행렬 곱셈

두 CTA가 협력하는 Block Scale MMA의 전체 경로(TMA→cp→MMA→commit)를 tcgen05.cp 명령으로 구현한다

#Triton #NVIDIA #Blackwell #2CTA #MMA #tcgen05

2026년 2월 23일

[Triton] Blackwell 2D activation-scale layout에서 ragged metadata 없이 동작하도록 수정

2D 입력 + ragged_metadata=None 조합에서 batched 모드로 fallback하여 레이아웃 구성 실패 방지

#Triton #NVIDIA #Blackwell #MXFP #Bug Fix

2026년 2월 11일

[triton] Blackwell GPU Cluster Launch Control 지원으로 Persistent Kernel 워크로드 밸런싱 구현

Triton Gluon에 NVIDIA Blackwell SM100+ GPU의 CLC(Cluster Launch Control) 기능을 추가하여 persistent kernel에서 동적 작업 분배를 가능하게 한 PR을 분석합니다.

#Triton #NVIDIA #Blackwell #GPU #Gluon

2026년 2월 6일

[Triton] M=64 2CTA 모드 지원 추가

Blackwell 아키텍처에서 M=64 instruction shape의 2CTA 모드를 지원하여 TensorMemory 레이아웃 유연성 확대

#Triton #NVIDIA #Blackwell #CTA #TensorMemory

2026년 1월 18일

[triton] [Blackwell] NVIDIA 차세대 아키텍처를 위한 Triton의 tcgen05.ld.red 최적화 분석

Blackwell 아키텍처의 TMEM 로드 및 리덕션 동시 수행 기능을 Triton Gluon에 구현하여 성능을 최적화한 사례를 분석합니다.

#Triton #Blackwell #NVIDIA #GPU #Optimization #MLIR

2026년 1월 16일

[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화

Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.

#Triton #Blackwell #GPU #Optimization #MXFP8

2025년 12월 2일

[triton] Gluon에 mma_scaled 연산 헬퍼 및 실행 테스트 추가

Triton Gluon 프론트엔드에 Blackwell tcgen05_mma_scaled 연산을 지원하는 헬퍼 함수와 실행 테스트를 추가한 PR 분석.

#Triton #Gluon #Blackwell #MMA #Scaled #TensorCore

2025년 10월 9일

[Triton] Blackwell barrierSlice 타이핑 버그 수정

numStages가 1일 때 barrierSlice 생성에서 발생하는 타입 불일치 버그를 수정

#Triton #NVIDIA #Blackwell #Bug Fix #Barrier

2025년 10월 9일

[triton] tcgen05.cp를 Generic Matrix Descriptor Lowering으로 통합

Triton NVIDIA 백엔드에서 tcgen05.cp 명령어의 SMEM 디스크립터 로딩을 generic matrix descriptor lowering 경로로 통합하여 코드 중복을 줄인 PR 분석.

#Triton #NVIDIA #Blackwell #MatrixDescriptor #LLVM #Backend

2025년 10월 2일