#NVIDIA

44개의 포스트

[SGLang] CUTLASS MoE: 최적화 GEMM 커널 기반 전문가 연산

SGLang의 CUTLASS MoE를 분석한다. NVIDIA CUTLASS 라이브러리를 활용한 고성능 MoE GEMM 커널, Triton 대비 성능 차이, 양자화 지원을 코드와 함께 살펴본다.

#sglang #CUTLASS #MoE #GEMM Kernel #NVIDIA

2026년 4월 12일

[sglang] CI에서 NVIDIA wheel 로컬 캐싱으로 830MB 반복 다운로드 방지

pypi.nvidia.com의 Cache-Control: no-store로 인한 cudnn/nvshmem wheel 반복 다운로드를 로컬 캐시로 해결

#SGLang #CI/CD #Performance #NVIDIA

2026년 3월 31일

[triton] MMAv2 dot에 Prefetch 재활성화 - 루프 프롤로그 분리 방식으로 재설계

Triton의 MMAv2 dot 연산에 대한 prefetch 최적화를 루프 프롤로그 분리 방식으로 재설계하여 재활성화한 PR을 분석합니다.

#Triton #NVIDIA #Prefetch #MMAv2 #Pipeline

2026년 3월 27일

[triton] Consumer Blackwell(sm_120)에서 PTX Codegen Segfault 수정

RTX 5070 Ti 등 consumer Blackwell GPU에서 sm_120a suffix 사용으로 인한 런타임 segfault를 수정한 사례를 분석합니다.

#Triton #NVIDIA #GPU #Blackwell #PTX #BugFix

2026년 3월 16일

[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산

NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.

#Triton #NVIDIA #GPU #MultiCTA #Tutorial #Blackwell

2026년 3월 6일

[triton] MultiCTA Membar에 Fence + Cluster Relaxed 자동 삽입

Triton의 MultiCTA 환경에서 cross-CTA mbarrier에 fence_mbarrier_init과 cluster arrive/wait를 자동 삽입하여 동기화 정합성을 보장하는 PR 분석.

#Triton #NVIDIA #MultiCTA #Membar #Fence #ClusterBarrier

2026년 3월 3일

[Triton] FenceAsync에 비동기 읽기 의존성 추가 — st.shared와 copy_local_to_global 간 정합성 보장

비동기 프록시 읽기 연산에 대한 fence 삽입 누락 버그를 수정하여 공유 메모리 쓰기와 글로벌 복사 간 데이터 정합성을 보장한다

#Triton #MLIR #NVIDIA #Memory Fence #GPU Compiler

2026년 3월 2일

[triton] Gluon tmem_load에서 Register Layout 자동 추론

get_tmem_reg_layout 호출을 제거하고 tensor memory descriptor에서 register layout을 자동으로 추론하도록 BC-breaking 변경을 적용한 사례를 분석합니다.

#Triton #Gluon #NVIDIA #Blackwell #TensorMemory

2026년 2월 28일

[triton] NVIDIA inval_barrier를 leader CTA에서만 실행하도록 변경

multi-CTA 환경에서 broadcasted barrier의 inval_barrier 연산을 leader CTA에서만 실행하도록 수정하여, 올바른 barrier invalidation을 보장하는 PR을 분석합니다.

#Triton #NVIDIA #Multi-CTA #Barrier #mbarrier

2026년 2월 27일

[triton] WSSpecialize에서 초기화된 Barrier의 Invalidation 추가

WarpSpecialize 패스가 생성한 mbarrier를 사용 후 올바르게 invalidate하여 재사용 시의 하드웨어 정합성 문제를 방지한 사례를 분석합니다.

#Triton #NVIDIA #GPU #WarpSpecialize #Barrier

2026년 2월 26일

[Triton] 2CTA Block Scale MMA with tcgen05.cp — 두 CTA 협력 행렬 곱셈

두 CTA가 협력하는 Block Scale MMA의 전체 경로(TMA→cp→MMA→commit)를 tcgen05.cp 명령으로 구현한다

#Triton #NVIDIA #Blackwell #2CTA #MMA #tcgen05

2026년 2월 23일

[triton] Async TMA Lowering에서 Cluster Barrier 로직 수정

Triton의 TMA 비동기 복사에서 cluster barrier 사용 조건과 cross-CTA mbarrier init 동기화를 수정한 PR 분석.

#Triton #NVIDIA #TMA #ClusterBarrier #MultiCTA #BugFix

2026년 2월 19일

[triton] NVIDIA TMA im2col 모드 Gluon 튜토리얼 - Convolution 커널 구현

Triton Gluon을 사용하여 NVIDIA Blackwell GPU의 TMA im2col 모드로 Convolution 커널을 구현하는 튜토리얼 PR을 분석합니다.

#Triton #NVIDIA #TMA #Convolution #Gluon

2026년 2월 16일

[triton] CLCTryCancel이 Async Proxy를 사용하도록 수정

Triton NVIDIA 백엔드에서 CLCTryCancelOp을 async proxy write로 인식시켜 proxy fence가 올바르게 삽입되도록 수정한 PR 분석.

#Triton #NVIDIA #CLC #ProxyFence #AsyncCopy #BugFix

2026년 2월 16일

[Triton] Blackwell 2D activation-scale layout에서 ragged metadata 없이 동작하도록 수정

2D 입력 + ragged_metadata=None 조합에서 batched 모드로 fallback하여 레이아웃 구성 실패 방지

#Triton #NVIDIA #Blackwell #MXFP #Bug Fix

2026년 2월 11일

[Triton] 커널 끝에 cross-CTA barrier 추가 — 클러스터 메모리 정합성 보장

미처리 읽기/쓰기가 있는 커널 종료 시 클러스터 수준 barrier를 삽입하여 CTA 간 메모리 정합성을 보장한다

#Triton #NVIDIA #Cluster #Memory Barrier #Correctness

2026년 2월 10일

[triton] Triton NVIDIA GPU 백엔드: WarpGroupDotWaitOp 최적화 및 동기화 개선

WarpGroupDotWaitOp에 warpGroupLocal 속성을 추가하여 불필요한 배리어 동기화를 제거하고 성능을 최적화했습니다.

#Triton #NVIDIA #GPU #Optimization #Compiler

2026년 2월 9일

[triton] FPSan에서 Warp Specialization + TMem 사용 시 크래시 수정

Floating-point Sanitizer가 WarpSpecialize 파티션 내에서 tensor memory 접근 시 scope 외부 값을 참조하여 발생하는 크래시를 수정한 사례를 분석합니다.

#Triton #FPSan #NVIDIA #WarpSpecialize #TensorMemory #BugFix

2026년 2월 9일

[Triton] TMA im2col 모드 — Gluon API 구현

TMA im2col 시리즈의 Gluon DSL API 구현으로, Python에서 im2col 모드 TMA 복사를 직접 사용할 수 있게 한다

#Triton #NVIDIA #TMA #im2col #Gluon #Convolution

2026년 2월 9일

[triton] Blackwell GPU Cluster Launch Control 지원으로 Persistent Kernel 워크로드 밸런싱 구현

Triton Gluon에 NVIDIA Blackwell SM100+ GPU의 CLC(Cluster Launch Control) 기능을 추가하여 persistent kernel에서 동적 작업 분배를 가능하게 한 PR을 분석합니다.

#Triton #NVIDIA #Blackwell #GPU #Gluon

2026년 2월 6일

[Triton] TMA im2col 모드 — LLVM Lowering 구현

TMA im2col 시리즈의 다섯 번째 PR로, im2col descriptor 생성과 TMA 복사의 LLVM IR lowering을 구현한다

#Triton #NVIDIA #TMA #im2col #LLVM #Compiler

2026년 2월 6일

[triton] NVIDIA TMA im2col 모드 드라이버 지원

NVIDIA TMA의 im2col 모드를 위한 Python 드라이버 레벨 지원을 추가한 PR을 분석합니다. cuTensorMapEncodeIm2col API 바인딩과 descriptor 생성 로직을 살펴봅니다.

#Triton #NVIDIA #TMA #Im2col #Driver

2026년 1월 28일

[Triton] TMA im2col 모드 — tma load op 수정

NVIDIA TMA im2col 모드 시리즈의 세 번째 PR로, tma load op의 타입 매칭과 offset 처리를 수정한다

#Triton #NVIDIA #TMA #im2col #Convolution

2026년 1월 26일

[triton] NVIDIA TMA im2col 모드 Tensor Descriptor 지원

NVIDIA TMA의 im2col 모드를 Triton의 tensor descriptor 시스템에 통합한 PR을 분석합니다. TensorDescInterface 도입과 TensorDescIm2ColType 추가를 통해 convolution-friendly 메모리 접근 패턴을 지원합니다.

#Triton #NVIDIA #TMA #Im2col #Convolution #MLIR

2026년 1월 26일

[triton] NVIDIA canSkipBarSync 복원으로 MoE 커널 18GBps 성능 향상

Blackwell 지원 과정에서 비활성화된 barrier skip 최적화를 보수적으로 재설계하여 복원하고, persistent MoE 커널 성능을 개선한 PR을 분석합니다.

#Triton #NVIDIA #Membar #Optimization #MoE

2026년 1월 22일

[Triton] M=64 2CTA 모드 지원 추가

Blackwell 아키텍처에서 M=64 instruction shape의 2CTA 모드를 지원하여 TensorMemory 레이아웃 유연성 확대

#Triton #NVIDIA #Blackwell #CTA #TensorMemory

2026년 1월 18일

[triton] [Blackwell] NVIDIA 차세대 아키텍처를 위한 Triton의 tcgen05.ld.red 최적화 분석

Blackwell 아키텍처의 TMEM 로드 및 리덕션 동시 수행 기능을 Triton Gluon에 구현하여 성능을 최적화한 사례를 분석합니다.

#Triton #Blackwell #NVIDIA #GPU #Optimization #MLIR

2026년 1월 16일

[triton] AutoWS에서 TMA와 non-TMA 로드 혼합 시 self-latency 및 MMA 처리 수정

Warp specialization에서 TMA와 일반 로드가 혼합될 때 MMA의 self-latency를 올바르게 설정하고 warp-specialized MMA를 lowerMMA에서 처리하도록 수정한 PR을 분석합니다.

#Triton #NVIDIA #AutoWS #TMA #Pipeline

2026년 1월 7일

[Triton] WGMMA rs-dot 분할을 2회로 제한 — 1% MoE 성능 향상

K 차원 분할 수를 K/instrK에서 2로 고정하여 in-register pipelining 최적화

#Triton #NVIDIA #Performance #WGMMA #Pipelining

2026년 1월 7일

[Triton] SWP 루프 로우어링에서 barrier 위치 결정 로직 수정

MMA의 non-pipelined operand와 tmem_load 간 barrier 위치를 linearized schedule 기반으로 정확히 결정

#Triton #NVIDIA #Pipelining #SWP #Bug Fix

2025년 12월 22일

[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성

파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.

#Triton #NVIDIA #WGMMA #Pipeline #Optimization

2025년 12월 17일

[Triton] WGMMA register pipelining에서 누락된 wait 삽입 수정

Persistent matmul epilogue에서 accumulator 접근 시 필요한 wgmma wait 누락 버그 수정

#Triton #NVIDIA #MLIR #Bug Fix #Pipelining

2025년 12월 11일

[Triton] MXFP4→BF16 변환에서 mul.bf16x2 강제 사용 — 1% MoE 성능 향상

LLVM 자동 벡터화 실패를 우회하여 ptxas가 HMUL2 명령어를 생성하도록 유도

#Triton #NVIDIA #Performance #PTX #Inline Assembly

2025년 12월 11일

[Triton] Warp Specialization 중첩 루프 지원

partition-schedule 패스를 재귀적으로 확장하고, tmem_alloc hoisting을 최상위로 수행하여 중첩 루프 E2E 지원

#Triton #NVIDIA #Warp Specialization #Nested Loop #Pipelining

2025년 12월 2일

[Triton] Gluon의 to_linear_layout에서 TensorMemory 레이아웃 지원

to_linear_layout 함수가 Distributed, Shared에 더해 TensorMemory 인코딩도 처리할 수 있도록 확장

#Triton #Gluon #NVIDIA #TensorMemory #LinearLayout

2025년 11월 21일

[Triton] clamp 최적화를 scalar에도 적용 — fmin.xorsign.abs 활용

Hopper 이상에서 clamp(x, -limit, limit) 패턴을 scalar 값에도 min.xorsign.abs로 최적화

#Triton #NVIDIA #Compiler Optimization #PTX #Scalar

2025년 11월 21일

[Triton] Concurrency Sanitizer에 TMA Store 검증 추가

Triton의 동시성 검사기(CONSAN)가 TMA Store 연산의 메모리 접근도 추적하여 데이터 레이스를 감지

#Triton #Sanitizer #TMA #Concurrency #NVIDIA

2025년 11월 10일

[Triton] WGMMA wait op의 출력 constraint 타입별 분기 수정

f16 등 16비트 타입에서 잘못된 =r constraint 대신 =h를 사용하여 불필요한 cvt 제거

#Triton #NVIDIA #Bug Fix #Inline Assembly #WGMMA

2025년 10월 29일

[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석

Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.

#Triton #NVIDIA #FP4 #GPU #Optimization #LLM

2025년 10월 20일

[Triton] Gluon 레이아웃 검증 에러 메시지 개선

TMA copy 연산의 레이아웃 검증 실패 시 더 명확한 에러 메시지를 제공하도록 개선

#Triton #Gluon #NVIDIA #Error Handling #DX

2025년 10월 20일

[Triton] Blackwell barrierSlice 타이핑 버그 수정

numStages가 1일 때 barrierSlice 생성에서 발생하는 타입 불일치 버그를 수정

#Triton #NVIDIA #Blackwell #Bug Fix #Barrier

2025년 10월 9일

[Triton] swizzling=0 matrix descriptor 지원과 WGMMA lowering 일반화

swizzling이 0인 경우의 matrix descriptor 생성과 SharedLinearEncoding 기반의 WGMMA lowering을 구현

#Triton #NVIDIA #WGMMA #Hopper #SharedLayout

2025년 10월 6일

[Triton] TMEM Store 레이아웃 변환 최적화 — FlexAttention 성능 복구

TMEM Store에 불필요한 layout conversion을 fold하여 FlexAttention 성능 저하 해결

#Triton #MLIR #FlexAttention #Compiler Optimization #NVIDIA

2025년 10월 3일

[triton] tcgen05.cp를 Generic Matrix Descriptor Lowering으로 통합

Triton NVIDIA 백엔드에서 tcgen05.cp 명령어의 SMEM 디스크립터 로딩을 generic matrix descriptor lowering 경로로 통합하여 코드 중복을 줄인 PR 분석.

#Triton #NVIDIA #Blackwell #MatrixDescriptor #LLVM #Backend

2025년 10월 2일