[sglang] Blackwell GPU에서 TRT-LLM 커널을 DSA 기본값으로 설정Blackwell(SM>=10) GPU에서 dp_size 조건을 제거하고 TRT-LLM 커널을 항상 기본 사용하도록 변경#SGLang#TRT-LLM#Blackwell#DeepSeek2026년 4월 2일댓글 수 로딩 중
[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.#SGLang#FlashInfer#MXFP8#CUTLASS#TensorRT-LLM#Quantization#Blackwell2026년 4월 1일댓글 수 로딩 중
[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.#SGLang#CI#Benchmark#GB300#Blackwell#NeMo Skills#VLM2026년 3월 29일댓글 수 로딩 중
[triton] Consumer Blackwell(sm_120)에서 PTX Codegen Segfault 수정RTX 5070 Ti 등 consumer Blackwell GPU에서 sm_120a suffix 사용으로 인한 런타임 segfault를 수정한 사례를 분석합니다.#Triton#NVIDIA#GPU#Blackwell#PTX#BugFix2026년 3월 16일댓글 수 로딩 중
[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다#Triton#CUDA#Matrix Multiplication#FP8#Blackwell2026년 3월 13일댓글 수 로딩 중
[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.#Triton#NVIDIA#GPU#MultiCTA#Tutorial#Blackwell2026년 3월 6일댓글 수 로딩 중
[triton] Gluon tmem_load에서 Register Layout 자동 추론get_tmem_reg_layout 호출을 제거하고 tensor memory descriptor에서 register layout을 자동으로 추론하도록 BC-breaking 변경을 적용한 사례를 분석합니다.#Triton#Gluon#NVIDIA#Blackwell#TensorMemory2026년 2월 28일댓글 수 로딩 중
[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.#PyTorch#vLLM#CI#CUDA#Blackwell#GitHub Actions2026년 2월 25일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 Blackwell 아키텍처에서의 Multi-CTA 행렬 곱셈 최적화Blackwell GPU의 Multi-CTA 환경에서 CLC(Cluster Launch Control)를 활용한 행렬 곱셈 성능 최적화 및 메모리 레이아웃 개선 분석.#Triton#Blackwell#GPU#MatMul#HPC2026년 2월 24일댓글 수 로딩 중
[Triton] 2CTA Block Scale MMA with tcgen05.cp — 두 CTA 협력 행렬 곱셈두 CTA가 협력하는 Block Scale MMA의 전체 경로(TMA→cp→MMA→commit)를 tcgen05.cp 명령으로 구현한다#Triton#NVIDIA#Blackwell#2CTA#MMA#tcgen052026년 2월 23일댓글 수 로딩 중
[Triton] Blackwell 2D activation-scale layout에서 ragged metadata 없이 동작하도록 수정2D 입력 + ragged_metadata=None 조합에서 batched 모드로 fallback하여 레이아웃 구성 실패 방지#Triton#NVIDIA#Blackwell#MXFP#Bug Fix2026년 2월 11일댓글 수 로딩 중
[triton] Blackwell GPU Cluster Launch Control 지원으로 Persistent Kernel 워크로드 밸런싱 구현Triton Gluon에 NVIDIA Blackwell SM100+ GPU의 CLC(Cluster Launch Control) 기능을 추가하여 persistent kernel에서 동적 작업 분배를 가능하게 한 PR을 분석합니다.#Triton#NVIDIA#Blackwell#GPU#Gluon2026년 2월 6일댓글 수 로딩 중
[Triton] M=64 2CTA 모드 지원 추가Blackwell 아키텍처에서 M=64 instruction shape의 2CTA 모드를 지원하여 TensorMemory 레이아웃 유연성 확대#Triton#NVIDIA#Blackwell#CTA#TensorMemory2026년 1월 18일댓글 수 로딩 중
[triton] [Blackwell] NVIDIA 차세대 아키텍처를 위한 Triton의 tcgen05.ld.red 최적화 분석Blackwell 아키텍처의 TMEM 로드 및 리덕션 동시 수행 기능을 Triton Gluon에 구현하여 성능을 최적화한 사례를 분석합니다.#Triton#Blackwell#NVIDIA#GPU#Optimization#MLIR2026년 1월 16일댓글 수 로딩 중
[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.#Triton#Blackwell#GPU#Optimization#MXFP82025년 12월 2일댓글 수 로딩 중
[triton] Gluon에 mma_scaled 연산 헬퍼 및 실행 테스트 추가Triton Gluon 프론트엔드에 Blackwell tcgen05_mma_scaled 연산을 지원하는 헬퍼 함수와 실행 테스트를 추가한 PR 분석.#Triton#Gluon#Blackwell#MMA#Scaled#TensorCore2025년 10월 9일댓글 수 로딩 중
[Triton] Blackwell barrierSlice 타이핑 버그 수정numStages가 1일 때 barrierSlice 생성에서 발생하는 타입 불일치 버그를 수정#Triton#NVIDIA#Blackwell#Bug Fix#Barrier2025년 10월 9일댓글 수 로딩 중
[triton] tcgen05.cp를 Generic Matrix Descriptor Lowering으로 통합Triton NVIDIA 백엔드에서 tcgen05.cp 명령어의 SMEM 디스크립터 로딩을 generic matrix descriptor lowering 경로로 통합하여 코드 중복을 줄인 PR 분석.#Triton#NVIDIA#Blackwell#MatrixDescriptor#LLVM#Backend2025년 10월 2일댓글 수 로딩 중