[triton] Consumer Blackwell(sm_120)에서 PTX Codegen Segfault 수정RTX 5070 Ti 등 consumer Blackwell GPU에서 sm_120a suffix 사용으로 인한 런타임 segfault를 수정한 사례를 분석합니다.#Triton#NVIDIA#GPU#Blackwell#PTX#BugFix2026년 3월 16일댓글 수 로딩 중
[triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선Triton의 SwiGLU 커널에서 exp 연산을 CUDA의 ex2.approx.ftz 인라인 어셈블리로 대체하여, 수치적 안전성을 유지하면서 처리량을 개선한 PR을 분석합니다.#Triton#Kernel#SwiGLU#PTX#Optimization2026년 1월 8일댓글 수 로딩 중
[Triton] MXFP4→BF16 변환에서 mul.bf16x2 강제 사용 — 1% MoE 성능 향상LLVM 자동 벡터화 실패를 우회하여 ptxas가 HMUL2 명령어를 생성하도록 유도#Triton#NVIDIA#Performance#PTX#Inline Assembly2025년 12월 11일댓글 수 로딩 중
[Triton] clamp 최적화를 scalar에도 적용 — fmin.xorsign.abs 활용Hopper 이상에서 clamp(x, -limit, limit) 패턴을 scalar 값에도 min.xorsign.abs로 최적화#Triton#NVIDIA#Compiler Optimization#PTX#Scalar2025년 11월 21일댓글 수 로딩 중