[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.#Triton#GPU#Optimization#Attention#DeepLearning2026년 4월 23일댓글 수 로딩 중
[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.#Triton#AMD#GPU#Optimization#GEMM#HPC2026년 4월 18일댓글 수 로딩 중
[vLLM] CUDA Graphs: 커널 런칭 오버헤드 제거vLLM이 CUDA Graph를 활용하여 디코드 단계의 커널 런칭 오버헤드를 제거하는 방법을 CUDAGraphWrapper와 GPUModelRunner 코드 레벨에서 분석한다.#vllm#CUDA graphs#optimization#GPU#kernel launch2026년 4월 7일댓글 수 로딩 중
[vLLM] GPUModelRunner: GPU 모델 포워드 패스vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.#vllm#GPU#model runner#forward pass#CUDA2026년 4월 7일댓글 수 로딩 중
[sglang] SGLang DeepSeekV3 Router GEMM 최적화: FlashInfer 커널 도입 및 벤치마킹DeepSeekV3 라우터 GEMM 성능 최적화를 위해 FlashInfer 커널을 도입하고 벤치마킹합니다.#SGLang#DeepSeekV3#FlashInfer#GEMM#최적화#벤치마킹#Blackwell#GPU2026년 4월 4일댓글 수 로딩 중
[triton] AMD TDM의 Partition-Aware 분할 및 다중 Intrinsic 지원PartitionedSharedEncoding에서 TDM warp 배분을 파티션 경계에 맞추고, 다중 TDM 명령어 생성 및 wait count 계산을 올바르게 처리하도록 개선한 사례를 분석합니다.#Triton#AMD#GPU#TDM#WarpDistribution2026년 3월 28일댓글 수 로딩 중
[triton] GSan AxisInfo 기반 Shadow Update 중복 제거로 2~10배 성능 향상Triton의 Global Sanitizer에서 AxisInfo의 contiguity 속성을 활용하여 중복 shadow update를 제거하고, FP16 matmul에서 최대 10배 속도 향상을 달성한 PR을 분석합니다.#Triton#GPU#Sanitizer#Optimization#MLIR2026년 3월 27일댓글 수 로딩 중
[triton] AMD GFX9 Async Copy에서 Shared Memory 순서 버그 수정스레드가 contiguous 차원을 정확히 커버할 때 shared memory 순서가 잘못 설정되는 문제를 수정하여 데이터 정합성을 보장한 사례를 분석합니다.#Triton#AMD#GPU#SharedMemory#AsyncCopy2026년 3월 27일댓글 수 로딩 중
[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.#SGLang#CUDA#Kernel Optimization#RMSNorm#Diffusion#GPU2026년 3월 27일댓글 수 로딩 중
[triton] AMD Async Wait Count에서 Warp Free Variable 및 Register Zero Base 버그 수정비정규 warp가 async copy를 건너뛰는 경우와 register zero base가 명령어 수를 부풀리는 문제를 수정한 사례를 분석합니다.#Triton#AMD#GPU#AsyncCopy#WarpSpecialization2026년 3월 26일댓글 수 로딩 중
[triton] AMD 백엔드에 Concurrency Sanitizer(ConSan) 지원 추가AMD GPU에서 GPU 동시성 버그를 감지하는 ConSan을 지원하기 위해 MBarrierOpInterface, 타겟 훅, 캡처 카운트 추정 등을 구현한 사례를 분석합니다.#Triton#AMD#GPU#ConSan#Sanitizer#Concurrency2026년 3월 26일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.#Triton#AMD#GPU#Optimization#GEMM2026년 3월 25일댓글 수 로딩 중
[triton] GSan 테스트에서 nanosleep 대신 Atomic 기반 동기화로 전환GPU Sanitizer 테스트에서 비결정적인 nanosleep 기반 동기화를 atomic polling으로 교체하여 테스트 안정성을 크게 향상시킨 사례를 분석합니다.#Triton#GSan#Testing#GPU#Synchronization2026년 3월 24일댓글 수 로딩 중
[triton] AMD MXFP FA 예제에서 TDM Store 도입으로 Output 저장 최적화buffer_store 기반의 수동 레이아웃 관리를 TDM store로 대체하여 코드를 단순화하고 메모리 접근 효율을 높인 사례를 분석합니다.#Triton#AMD#GPU#TDM#FlashAttention2026년 3월 23일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA Triton 커널의 autotune 탐색 공간 축소ScatterMoE LoRA Triton 커널의 autotune 설정에서 불필요하게 큰 block size를 제거하여 컴파일 시간을 단축하고 shared memory 초과를 방지한 분석.#Axolotl#Triton#ScatterMoE#LoRA#Autotune#Performance#GPU2026년 3월 21일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.#Axolotl#ScatterMoE#LoRA#Triton#MoE#Benchmark#GPU#Performance2026년 3월 19일댓글 수 로딩 중
[triton] getTranspositionSelectors 알고리즘 단순화 및 복원다중 mixed transposition에서의 정합성 문제를 해결하고, prmt selector 알고리즘의 수학적 분해를 명확히 정리한 사례를 분석합니다.#Triton#GPU#LinearLayout#Optimization#Algorithm2026년 3월 19일댓글 수 로딩 중
[axolotl] Axolotl: Triton 커널을 활용한 Entropy 및 Selective Log Softmax 최적화Axolotl에서 Triton 커널을 사용하여 Entropy 및 Selective Log Softmax 계산을 최적화하여 훈련 성능을 크게 향상시킨 PR 분석.#Triton#PyTorch#Optimization#Deep Learning#Performance#GPU2026년 3월 19일댓글 수 로딩 중
[triton] GFX1250에서 AsyncCopy의 OOB Shared Memory 주소를 이용한 마스킹브랜치 기반 마스킹 대신 out-of-range LDS 주소를 활용하여 async copy를 효율적으로 마스킹하는 GFX1250 최적화를 분석합니다.#Triton#AMD#GPU#AsyncCopy#GFX12502026년 3월 18일댓글 수 로딩 중
[Ray Data] RAPIDS MPF 기반 GPU 셔플 지원으로 GPU 데이터 처리 파이프라인 가속CPU 경유 없이 GPU 메모리에서 직접 해시 셔플을 수행하는 GPUShuffleOperator를 추가하여 대규모 분산 GPU 데이터 처리를 가속하는 기능 분석.#Ray#Python#Performance#GPU#Distributed Systems2026년 3월 17일댓글 수 로딩 중
[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#Atomics2026년 3월 16일댓글 수 로딩 중
[triton] Consumer Blackwell(sm_120)에서 PTX Codegen Segfault 수정RTX 5070 Ti 등 consumer Blackwell GPU에서 sm_120a suffix 사용으로 인한 런타임 segfault를 수정한 사례를 분석합니다.#Triton#NVIDIA#GPU#Blackwell#PTX#BugFix2026년 3월 16일댓글 수 로딩 중
[triton] AMD AtomicCAS의 Tensor Operand Thread Predicate 수정AMD 백엔드에서 tensor 기반 atomic CAS 연산의 thread predicate를 올바르게 적용하여 redundant thread의 잘못된 atomic 실행을 방지한 사례를 분석합니다.#Triton#AMD#GPU#Atomics#BugFix2026년 3월 14일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법#Triton#GPU#CUDA#MatMul#HighPerformanceComputing2026년 3월 13일댓글 수 로딩 중
[triton] AMD GFX1250 MXFP Flash Attention 예제 커널 대규모 리팩터링preshuffle 로직 제거, TDM store 도입, expand_dims 전환 등 GFX1250 FA 예제를 단순화하고 성능을 개선한 리팩터링을 분석합니다.#Triton#AMD#GPU#FlashAttention#GFX1250#Refactoring2026년 3월 12일댓글 수 로딩 중
[Ray] Ray Data에 cuDF 배치 포맷 추가Ray Data의 batch_format에 cudf.DataFrame을 추가해 GPU 네이티브 데이터 처리 파이프라인 지원#Ray#GPU#cuDF#Data Processing2026년 3월 12일댓글 수 로딩 중
[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.#Triton#NVIDIA#GPU#MultiCTA#Tutorial#Blackwell2026년 3월 6일댓글 수 로딩 중
[triton] Multi-CTA 예제에서 Program ID를 Shared Memory에 저장하여 재계산 방지CLC 타일 스케줄러에서 planar snake ID를 shared memory에 저장하여 consumer와 epilogue 파티션 간 재계산을 제거한 최적화를 분석합니다.#Triton#Gluon#GPU#MultiCTA#Optimization2026년 3월 5일댓글 수 로딩 중
[Ray] NIXL 메타데이터 캐싱으로 GPU 텐서 전송 등록/해제 오버헤드 제거Ray의 Direct Transport에서 텐서 메모리 등록을 캐싱하여 반복적인 weight sync 시 NIXL 메타데이터 등록/해제 오버헤드를 제거한 PR 분석.#Ray#GPU#NIXL#Tensor Transport#Memory Registration#Performance2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on AcceleratorsLukasz Heldt이 arXiv에 게시한 'Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators' 논문에 대한 자세한 리뷰입니다.#Review#Generative Retrieval#Constrained Decoding#Trie#Sparse Matrix#TPU#GPU#Recommendation Systems#LLM2026년 3월 1일댓글 수 로딩 중
[triton] WSSpecialize에서 초기화된 Barrier의 Invalidation 추가WarpSpecialize 패스가 생성한 mbarrier를 사용 후 올바르게 invalidate하여 재사용 시의 하드웨어 정합성 문제를 방지한 사례를 분석합니다.#Triton#NVIDIA#GPU#WarpSpecialize#Barrier2026년 2월 26일댓글 수 로딩 중
[triton] Proton 커널 런처에 더 많은 메타데이터 전달Proton의 metric 커널 런치에 numThreads와 sharedMemBytes 등 추가 메타데이터를 전달하여 GPU 자원 활용을 정밀하게 제어하도록 개선한 사례를 분석합니다.#Triton#Proton#Profiling#GPU#KernelLaunch2026년 2월 26일댓글 수 로딩 중
[triton] Backend별 global_scratch_alloc 할당 통합Proton 프로파일러의 scratch 메모리를 별도 풀로 분리하고, third-party allocation 지원을 추가하여 global scratch 메모리 관리를 통합한 사례를 분석합니다.#Triton#GPU#MemoryAllocation#Proton#Refactoring2026년 2월 26일댓글 수 로딩 중
[triton] Gluon에서 3D Dot FMA 연산 노출Triton Gluon 프론트엔드에서 batched(3D) matrix multiplication을 FMA dot 연산으로 지원하도록 확장한 PR 분석.#Triton#Gluon#DotFMA#BatchedMatMul#3D#GPU2026년 2월 25일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 Blackwell 아키텍처에서의 Multi-CTA 행렬 곱셈 최적화Blackwell GPU의 Multi-CTA 환경에서 CLC(Cluster Launch Control)를 활용한 행렬 곱셈 성능 최적화 및 메모리 레이아웃 개선 분석.#Triton#Blackwell#GPU#MatMul#HPC2026년 2월 24일댓글 수 로딩 중
[triton] AMD TensorDescType의 Shared Memory 크기 계산 수정WarpSpecialize capture에서 TensorDescType의 크기를 정확히 계산하도록 수정하여 shared memory 할당 오류를 방지한 사례를 분석합니다.#Triton#AMD#GPU#WarpSpecialize#SharedMemory2026년 2월 20일댓글 수 로딩 중
[triton] Triton AMD GPU: 버퍼 로드 루프 내 주소 계산 최적화루프 내 버퍼 로드 시 오프셋 기반 주소 계산을 베이스 포인터 증분 방식으로 변경하여 연산 효율성을 개선했습니다.#Triton#AMD#Compiler Optimization#MLIR#GPU2026년 2월 20일댓글 수 로딩 중
[triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원multi-CTA 레이아웃에서 broadcasted CTA와 CTA 차원 분할을 올바르게 처리하도록 메모리 슬라이싱 검증 로직을 개선한 사례를 분석합니다.#Triton#GPU#MultiCTA#SharedMemory#LinearLayout2026년 2월 20일댓글 수 로딩 중
[triton] AMD GFX950에서 Padded Layout Async Copy의 OOM 버그 수정작은 타일 크기에서 padding interval이 contiguous 차원보다 큰 경우를 처리하여 pipelining 시 OOM을 방지한 사례를 분석합니다.#Triton#AMD#GPU#GFX950#Pipelining#BugFix2026년 2월 18일댓글 수 로딩 중
[triton] AMD 백엔드에서 Floating-Point Sanitizer(FPSan) 지원 활성화AMD GPU(CDNA3/CDNA4/GFX1250)에서 FPSan을 지원하도록 테스트를 확장하고, warp size 차이에 따른 레이아웃 문제를 해결한 사례를 분석합니다.#Triton#AMD#GPU#FPSan#Testing2026년 2월 17일댓글 수 로딩 중
[triton] Triton AMD 백엔드: 8-Wave PingPong Attention 커널 구현 분석AMD GPU 환경에서 성능 향상을 위한 8-Wave PingPong Attention 커널 구현 및 파이프라이닝 최적화 기법을 살펴봅니다.#Triton#AMD#GPU#Attention#Optimization2026년 2월 10일댓글 수 로딩 중
[triton] Triton NVIDIA GPU 백엔드: WarpGroupDotWaitOp 최적화 및 동기화 개선WarpGroupDotWaitOp에 warpGroupLocal 속성을 추가하여 불필요한 배리어 동기화를 제거하고 성능을 최적화했습니다.#Triton#NVIDIA#GPU#Optimization#Compiler2026년 2월 9일댓글 수 로딩 중
[triton] Blackwell GPU Cluster Launch Control 지원으로 Persistent Kernel 워크로드 밸런싱 구현Triton Gluon에 NVIDIA Blackwell SM100+ GPU의 CLC(Cluster Launch Control) 기능을 추가하여 persistent kernel에서 동적 작업 분배를 가능하게 한 PR을 분석합니다.#Triton#NVIDIA#Blackwell#GPU#Gluon2026년 2월 6일댓글 수 로딩 중
[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.#Triton#Compiler#Optimization#LLVM#GPU2026년 2월 6일댓글 수 로딩 중
[triton] AMD GFX1250용 Warp-Pipeline f16 GEMM 예제 추가AMD GFX1250 아키텍처에서 TDM과 warp pipeline을 활용한 f16 GEMM 커널 예제를 추가한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#GEMM#WarpPipeline2026년 2월 5일댓글 수 로딩 중
[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법#Triton#AMD#GPU#LLVM#Optimization2026년 1월 30일댓글 수 로딩 중
[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.#Triton#GPU#Optimization#HPC#Matmul2026년 1월 22일댓글 수 로딩 중
[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.#Triton#GPU#CUDA#Optimization#Matmul2026년 1월 20일댓글 수 로딩 중
[triton] [Blackwell] NVIDIA 차세대 아키텍처를 위한 Triton의 tcgen05.ld.red 최적화 분석Blackwell 아키텍처의 TMEM 로드 및 리덕션 동시 수행 기능을 Triton Gluon에 구현하여 성능을 최적화한 사례를 분석합니다.#Triton#Blackwell#NVIDIA#GPU#Optimization#MLIR2026년 1월 16일댓글 수 로딩 중
[triton] AMD: padded shared layout을 더 작은 block size에도 적용하여 bank conflict 제거16KB 미만의 작은 블록에서도 LDS padding을 활용한 bank conflict 프리 레이아웃을 지원하도록 개선한 변경 분석.#Triton#AMD#GPU#LDS#Bank Conflict#Shared Memory2026년 1월 13일댓글 수 로딩 중
[Triton] 소규모 async_cp를 위한 최적 레이아웃 선택작은 텐서의 async copy 시 coalesced encoding을 독립적으로 선택하여 불필요한 convert_layout 제거#Triton#MLIR#Compiler Optimization#GPU#Async Copy2026년 1월 9일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 19일댓글 수 로딩 중
[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 18일댓글 수 로딩 중
[triton] Triton AMD 커널 최적화: 루프 언롤링(Loop Unrolling)을 통한 성능 향상Triton AMD FlashAttention 커널에서 루프 언롤링(unroll_factor=2)을 적용하여 레지스터 회전 효율을 높이고 연산 오버헤드를 줄인 사례 분석.#Triton#AMD#GPU#Optimization#FlashAttention2025년 12월 15일댓글 수 로딩 중
[triton] Triton에서 Ragged Mode를 위한 X Scale Swizzling 최적화Triton의 Ragged Mode에서 MXFP8 연산 시 X scale swizzling을 지원하여 행렬 곱셈 지연 시간을 줄이는 최적화 구현.#Triton#GPU#Optimization#MXFP8#MatMul2025년 12월 8일댓글 수 로딩 중
[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.#Triton#Blackwell#GPU#Optimization#MXFP82025년 12월 2일댓글 수 로딩 중
[triton] Triton Kernel의 Matrix Multiplication 리팩토링: 코드 가독성과 유지보수성 향상Triton의 행렬 곱셈 관련 모듈을 정리하고 변수 명명 규칙을 개선하여 코드의 일관성과 유지보수성을 높인 리팩토링 사례를 분석합니다.#Triton#GPU#Kernel#Refactoring#MatrixMultiplication2025년 11월 23일댓글 수 로딩 중
[triton] AMD GPU에서 Block Scaled Matmul 지원 추가Triton의 block scaled matrix multiplication 튜토리얼에 AMD CDNA4 GPU 지원을 추가하고, 스케일 프리셔플링 로직을 문서화한 PR 분석.#Triton#AMD#CDNA4#MatMul#MXFP#GPU2025년 11월 19일댓글 수 로딩 중
[triton] Triton PROTON: FinalizeOp 최적화를 통한 프로파일링 오버헤드 개선Triton PROTON의 FinalizeOp를 리팩토링하여 warp 단위 병렬 쓰기를 구현하고 프로파일링 오버헤드를 최대 2배 이상 개선했습니다.#Triton#GPU#Optimization#Compiler#Profiling2025년 11월 7일댓글 수 로딩 중
[triton] Triton에서의 MXFP 변환 성능 최적화: TMA와 벡터화된 연산 활용Triton의 MXFP8/MXFP4 변환 커널을 TMA와 벡터화된 스토어, 타일링 튜닝을 통해 대폭 가속화한 사례를 분석합니다.#Triton#MXFP#GPU#Optimization#HPC2025년 11월 6일댓글 수 로딩 중
[Triton] gfx1250 Shared Memory 크기 정확하게 반환하기AMD gfx1250 타겟에서 TargetInfo가 올바른 shared memory 크기를 반환하도록 switch 문으로 리팩터링#Triton#AMD#GPU#Shared Memory2025년 10월 23일댓글 수 로딩 중
[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.#Triton#NVIDIA#FP4#GPU#Optimization#LLM2025년 10월 20일댓글 수 로딩 중
[triton] Expert Parallelism 기본 구현과 Reduce 커널 추가Triton Kernels 라이브러리에 Expert Parallelism을 위한 기본 구현과 독립적인 reduce 커널을 추가하여 MoE 워크로드의 분산 처리를 지원하는 PR 분석.#Triton#ExpertParallelism#MoE#Reduce#Distributed#GPU2025년 10월 16일댓글 수 로딩 중
[triton] Triton GPU 컴파일러 최적화: TMEM Store의 레이아웃 변환 폴딩(Folding) 기법Triton의 TMEM Store 연산에서 불필요한 레이아웃 변환을 제거하여 Flex Attention 성능 저하를 해결한 최적화 기법을 분석합니다.#Triton#Compiler#Optimization#MLIR#GPU2025년 10월 3일댓글 수 로딩 중