#GPU

64개의 포스트

[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석

Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.

#Triton #GPU #Optimization #Attention #DeepLearning

2026년 4월 23일

[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상

Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.

#Triton #AMD #GPU #Optimization #GEMM #HPC

2026년 4월 18일

[vLLM] CUDA Graphs: 커널 런칭 오버헤드 제거

vLLM이 CUDA Graph를 활용하여 디코드 단계의 커널 런칭 오버헤드를 제거하는 방법을 CUDAGraphWrapper와 GPUModelRunner 코드 레벨에서 분석한다.

#vllm #CUDA graphs #optimization #GPU #kernel launch

2026년 4월 7일

[vLLM] GPUModelRunner: GPU 모델 포워드 패스

vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.

#vllm #GPU #model runner #forward pass #CUDA

2026년 4월 7일

[sglang] SGLang DeepSeekV3 Router GEMM 최적화: FlashInfer 커널 도입 및 벤치마킹

DeepSeekV3 라우터 GEMM 성능 최적화를 위해 FlashInfer 커널을 도입하고 벤치마킹합니다.

#SGLang #DeepSeekV3 #FlashInfer #GEMM #최적화 #벤치마킹 #Blackwell #GPU

2026년 4월 4일

[triton] AMD TDM의 Partition-Aware 분할 및 다중 Intrinsic 지원

PartitionedSharedEncoding에서 TDM warp 배분을 파티션 경계에 맞추고, 다중 TDM 명령어 생성 및 wait count 계산을 올바르게 처리하도록 개선한 사례를 분석합니다.

#Triton #AMD #GPU #TDM #WarpDistribution

2026년 3월 28일

[triton] GSan AxisInfo 기반 Shadow Update 중복 제거로 2~10배 성능 향상

Triton의 Global Sanitizer에서 AxisInfo의 contiguity 속성을 활용하여 중복 shadow update를 제거하고, FP16 matmul에서 최대 10배 속도 향상을 달성한 PR을 분석합니다.

#Triton #GPU #Sanitizer #Optimization #MLIR

2026년 3월 27일

[triton] AMD GFX9 Async Copy에서 Shared Memory 순서 버그 수정

스레드가 contiguous 차원을 정확히 커버할 때 shared memory 순서가 잘못 설정되는 문제를 수정하여 데이터 정합성을 보장한 사례를 분석합니다.

#Triton #AMD #GPU #SharedMemory #AsyncCopy

2026년 3월 27일

[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소

SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.

#SGLang #CUDA #Kernel Optimization #RMSNorm #Diffusion #GPU

2026년 3월 27일

[triton] AMD Async Wait Count에서 Warp Free Variable 및 Register Zero Base 버그 수정

비정규 warp가 async copy를 건너뛰는 경우와 register zero base가 명령어 수를 부풀리는 문제를 수정한 사례를 분석합니다.

#Triton #AMD #GPU #AsyncCopy #WarpSpecialization

2026년 3월 26일

[triton] AMD 백엔드에 Concurrency Sanitizer(ConSan) 지원 추가

AMD GPU에서 GPU 동시성 버그를 감지하는 ConSan을 지원하기 위해 MBarrierOpInterface, 타겟 훅, 캡처 카운트 추정 등을 구현한 사례를 분석합니다.

#Triton #AMD #GPU #ConSan #Sanitizer #Concurrency

2026년 3월 26일

[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상

Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.

#Triton #AMD #GPU #Optimization #GEMM

2026년 3월 25일

[triton] GSan 테스트에서 nanosleep 대신 Atomic 기반 동기화로 전환

GPU Sanitizer 테스트에서 비결정적인 nanosleep 기반 동기화를 atomic polling으로 교체하여 테스트 안정성을 크게 향상시킨 사례를 분석합니다.

#Triton #GSan #Testing #GPU #Synchronization

2026년 3월 24일

[triton] AMD MXFP FA 예제에서 TDM Store 도입으로 Output 저장 최적화

buffer_store 기반의 수동 레이아웃 관리를 TDM store로 대체하여 코드를 단순화하고 메모리 접근 효율을 높인 사례를 분석합니다.

#Triton #AMD #GPU #TDM #FlashAttention

2026년 3월 23일

[Axolotl] ScatterMoE LoRA Triton 커널의 autotune 탐색 공간 축소

ScatterMoE LoRA Triton 커널의 autotune 설정에서 불필요하게 큰 block size를 제거하여 컴파일 시간을 단축하고 shared memory 초과를 방지한 분석.

#Axolotl #Triton #ScatterMoE #LoRA #Autotune #Performance #GPU

2026년 3월 21일

[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합

ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.

#Axolotl #ScatterMoE #LoRA #Triton #MoE #Benchmark #GPU #Performance

2026년 3월 19일

[triton] getTranspositionSelectors 알고리즘 단순화 및 복원

다중 mixed transposition에서의 정합성 문제를 해결하고, prmt selector 알고리즘의 수학적 분해를 명확히 정리한 사례를 분석합니다.

#Triton #GPU #LinearLayout #Optimization #Algorithm

2026년 3월 19일

[axolotl] Axolotl: Triton 커널을 활용한 Entropy 및 Selective Log Softmax 최적화

Axolotl에서 Triton 커널을 사용하여 Entropy 및 Selective Log Softmax 계산을 최적화하여 훈련 성능을 크게 향상시킨 PR 분석.

#Triton #PyTorch #Optimization #Deep Learning #Performance #GPU

2026년 3월 19일

[triton] GFX1250에서 AsyncCopy의 OOB Shared Memory 주소를 이용한 마스킹

브랜치 기반 마스킹 대신 out-of-range LDS 주소를 활용하여 async copy를 효율적으로 마스킹하는 GFX1250 최적화를 분석합니다.

#Triton #AMD #GPU #AsyncCopy #GFX1250

2026년 3월 18일

[Ray Data] RAPIDS MPF 기반 GPU 셔플 지원으로 GPU 데이터 처리 파이프라인 가속

CPU 경유 없이 GPU 메모리에서 직접 해시 셔플을 수행하는 GPUShuffleOperator를 추가하여 대규모 분산 GPU 데이터 처리를 가속하는 기능 분석.

#Ray #Python #Performance #GPU #Distributed Systems

2026년 3월 17일

[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화

GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.

#Triton #AMD #GPU #GFX1250 #Atomics

2026년 3월 16일

[triton] Consumer Blackwell(sm_120)에서 PTX Codegen Segfault 수정

RTX 5070 Ti 등 consumer Blackwell GPU에서 sm_120a suffix 사용으로 인한 런타임 segfault를 수정한 사례를 분석합니다.

#Triton #NVIDIA #GPU #Blackwell #PTX #BugFix

2026년 3월 16일

[triton] AMD AtomicCAS의 Tensor Operand Thread Predicate 수정

AMD 백엔드에서 tensor 기반 atomic CAS 연산의 thread predicate를 올바르게 적용하여 redundant thread의 잘못된 atomic 실행을 방지한 사례를 분석합니다.

#Triton #AMD #GPU #Atomics #BugFix

2026년 3월 14일

[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화

Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법

#Triton #GPU #CUDA #MatMul #HighPerformanceComputing

2026년 3월 13일

[triton] AMD GFX1250 MXFP Flash Attention 예제 커널 대규모 리팩터링

preshuffle 로직 제거, TDM store 도입, expand_dims 전환 등 GFX1250 FA 예제를 단순화하고 성능을 개선한 리팩터링을 분석합니다.

#Triton #AMD #GPU #FlashAttention #GFX1250 #Refactoring

2026년 3월 12일

[Ray] Ray Data에 cuDF 배치 포맷 추가

Ray Data의 batch_format에 cudf.DataFrame을 추가해 GPU 네이티브 데이터 처리 파이프라인 지원

#Ray #GPU #cuDF #Data Processing

2026년 3월 12일

[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산

NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.

#Triton #NVIDIA #GPU #MultiCTA #Tutorial #Blackwell

2026년 3월 6일

[triton] Multi-CTA 예제에서 Program ID를 Shared Memory에 저장하여 재계산 방지

CLC 타일 스케줄러에서 planar snake ID를 shared memory에 저장하여 consumer와 epilogue 파티션 간 재계산을 제거한 최적화를 분석합니다.

#Triton #Gluon #GPU #MultiCTA #Optimization

2026년 3월 5일

[Ray] NIXL 메타데이터 캐싱으로 GPU 텐서 전송 등록/해제 오버헤드 제거

Ray의 Direct Transport에서 텐서 메모리 등록을 캐싱하여 반복적인 weight sync 시 NIXL 메타데이터 등록/해제 오버헤드를 제거한 PR 분석.

#Ray #GPU #NIXL #Tensor Transport #Memory Registration #Performance

2026년 3월 4일

[논문리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

Lukasz Heldt이 arXiv에 게시한 'Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators' 논문에 대한 자세한 리뷰입니다.

#Review #Generative Retrieval #Constrained Decoding #Trie #Sparse Matrix #TPU #GPU #Recommendation Systems #LLM

2026년 3월 1일

[triton] WSSpecialize에서 초기화된 Barrier의 Invalidation 추가

WarpSpecialize 패스가 생성한 mbarrier를 사용 후 올바르게 invalidate하여 재사용 시의 하드웨어 정합성 문제를 방지한 사례를 분석합니다.

#Triton #NVIDIA #GPU #WarpSpecialize #Barrier

2026년 2월 26일

[triton] Proton 커널 런처에 더 많은 메타데이터 전달

Proton의 metric 커널 런치에 numThreads와 sharedMemBytes 등 추가 메타데이터를 전달하여 GPU 자원 활용을 정밀하게 제어하도록 개선한 사례를 분석합니다.

#Triton #Proton #Profiling #GPU #KernelLaunch

2026년 2월 26일

[triton] Backend별 global_scratch_alloc 할당 통합

Proton 프로파일러의 scratch 메모리를 별도 풀로 분리하고, third-party allocation 지원을 추가하여 global scratch 메모리 관리를 통합한 사례를 분석합니다.

#Triton #GPU #MemoryAllocation #Proton #Refactoring

2026년 2월 26일

[triton] Gluon에서 3D Dot FMA 연산 노출

Triton Gluon 프론트엔드에서 batched(3D) matrix multiplication을 FMA dot 연산으로 지원하도록 확장한 PR 분석.

#Triton #Gluon #DotFMA #BatchedMatMul #3D #GPU

2026년 2월 25일

[triton] Triton Gluon을 활용한 Blackwell 아키텍처에서의 Multi-CTA 행렬 곱셈 최적화

Blackwell GPU의 Multi-CTA 환경에서 CLC(Cluster Launch Control)를 활용한 행렬 곱셈 성능 최적화 및 메모리 레이아웃 개선 분석.

#Triton #Blackwell #GPU #MatMul #HPC

2026년 2월 24일

[triton] AMD TensorDescType의 Shared Memory 크기 계산 수정

WarpSpecialize capture에서 TensorDescType의 크기를 정확히 계산하도록 수정하여 shared memory 할당 오류를 방지한 사례를 분석합니다.

#Triton #AMD #GPU #WarpSpecialize #SharedMemory

2026년 2월 20일

[triton] Triton AMD GPU: 버퍼 로드 루프 내 주소 계산 최적화

루프 내 버퍼 로드 시 오프셋 기반 주소 계산을 베이스 포인터 증분 방식으로 변경하여 연산 효율성을 개선했습니다.

#Triton #AMD #Compiler Optimization #MLIR #GPU

2026년 2월 20일

[triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원

multi-CTA 레이아웃에서 broadcasted CTA와 CTA 차원 분할을 올바르게 처리하도록 메모리 슬라이싱 검증 로직을 개선한 사례를 분석합니다.

#Triton #GPU #MultiCTA #SharedMemory #LinearLayout

2026년 2월 20일

[triton] AMD GFX950에서 Padded Layout Async Copy의 OOM 버그 수정

작은 타일 크기에서 padding interval이 contiguous 차원보다 큰 경우를 처리하여 pipelining 시 OOM을 방지한 사례를 분석합니다.

#Triton #AMD #GPU #GFX950 #Pipelining #BugFix

2026년 2월 18일

[triton] AMD 백엔드에서 Floating-Point Sanitizer(FPSan) 지원 활성화

AMD GPU(CDNA3/CDNA4/GFX1250)에서 FPSan을 지원하도록 테스트를 확장하고, warp size 차이에 따른 레이아웃 문제를 해결한 사례를 분석합니다.

#Triton #AMD #GPU #FPSan #Testing

2026년 2월 17일

[triton] Triton AMD 백엔드: 8-Wave PingPong Attention 커널 구현 분석

AMD GPU 환경에서 성능 향상을 위한 8-Wave PingPong Attention 커널 구현 및 파이프라이닝 최적화 기법을 살펴봅니다.

#Triton #AMD #GPU #Attention #Optimization

2026년 2월 10일

[triton] Triton NVIDIA GPU 백엔드: WarpGroupDotWaitOp 최적화 및 동기화 개선

WarpGroupDotWaitOp에 warpGroupLocal 속성을 추가하여 불필요한 배리어 동기화를 제거하고 성능을 최적화했습니다.

#Triton #NVIDIA #GPU #Optimization #Compiler

2026년 2월 9일

[triton] Blackwell GPU Cluster Launch Control 지원으로 Persistent Kernel 워크로드 밸런싱 구현

Triton Gluon에 NVIDIA Blackwell SM100+ GPU의 CLC(Cluster Launch Control) 기능을 추가하여 persistent kernel에서 동적 작업 분배를 가능하게 한 PR을 분석합니다.

#Triton #NVIDIA #Blackwell #GPU #Gluon

2026년 2월 6일

[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입

Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.

#Triton #Compiler #Optimization #LLVM #GPU

2026년 2월 6일

[triton] AMD GFX1250용 Warp-Pipeline f16 GEMM 예제 추가

AMD GFX1250 아키텍처에서 TDM과 warp pipeline을 활용한 f16 GEMM 커널 예제를 추가한 사례를 분석합니다.

#Triton #AMD #GPU #GFX1250 #GEMM #WarpPipeline

2026년 2월 5일

[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화

AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법

#Triton #AMD #GPU #LLVM #Optimization

2026년 1월 30일

[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기

Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.

#Triton #GPU #Optimization #HPC #Matmul

2026년 1월 22일

[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상

Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.

#Triton #GPU #CUDA #Optimization #Matmul

2026년 1월 20일

[triton] [Blackwell] NVIDIA 차세대 아키텍처를 위한 Triton의 tcgen05.ld.red 최적화 분석

Blackwell 아키텍처의 TMEM 로드 및 리덕션 동시 수행 기능을 Triton Gluon에 구현하여 성능을 최적화한 사례를 분석합니다.

#Triton #Blackwell #NVIDIA #GPU #Optimization #MLIR

2026년 1월 16일

[triton] AMD: padded shared layout을 더 작은 block size에도 적용하여 bank conflict 제거

16KB 미만의 작은 블록에서도 LDS padding을 활용한 bank conflict 프리 레이아웃을 지원하도록 개선한 변경 분석.

#Triton #AMD #GPU #LDS #Bank Conflict #Shared Memory

2026년 1월 13일

[Triton] 소규모 async_cp를 위한 최적 레이아웃 선택

작은 텐서의 async copy 시 coalesced encoding을 독립적으로 선택하여 불필요한 convert_layout 제거

#Triton #MLIR #Compiler Optimization #GPU #Async Copy

2026년 1월 9일

[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상

AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.

#Triton #AMD #GEMM #GPU #Optimization

2025년 12월 19일

[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석

Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.

#Triton #AMD #GEMM #GPU #Optimization

2025년 12월 18일

[triton] Triton AMD 커널 최적화: 루프 언롤링(Loop Unrolling)을 통한 성능 향상

Triton AMD FlashAttention 커널에서 루프 언롤링(unroll_factor=2)을 적용하여 레지스터 회전 효율을 높이고 연산 오버헤드를 줄인 사례 분석.

#Triton #AMD #GPU #Optimization #FlashAttention

2025년 12월 15일

[triton] Triton에서 Ragged Mode를 위한 X Scale Swizzling 최적화

Triton의 Ragged Mode에서 MXFP8 연산 시 X scale swizzling을 지원하여 행렬 곱셈 지연 시간을 줄이는 최적화 구현.

#Triton #GPU #Optimization #MXFP8 #MatMul

2025년 12월 8일

[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화

Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.

#Triton #Blackwell #GPU #Optimization #MXFP8

2025년 12월 2일

[triton] Triton Kernel의 Matrix Multiplication 리팩토링: 코드 가독성과 유지보수성 향상

Triton의 행렬 곱셈 관련 모듈을 정리하고 변수 명명 규칙을 개선하여 코드의 일관성과 유지보수성을 높인 리팩토링 사례를 분석합니다.

#Triton #GPU #Kernel #Refactoring #MatrixMultiplication

2025년 11월 23일

[triton] AMD GPU에서 Block Scaled Matmul 지원 추가

Triton의 block scaled matrix multiplication 튜토리얼에 AMD CDNA4 GPU 지원을 추가하고, 스케일 프리셔플링 로직을 문서화한 PR 분석.

#Triton #AMD #CDNA4 #MatMul #MXFP #GPU

2025년 11월 19일

[triton] Triton PROTON: FinalizeOp 최적화를 통한 프로파일링 오버헤드 개선

Triton PROTON의 FinalizeOp를 리팩토링하여 warp 단위 병렬 쓰기를 구현하고 프로파일링 오버헤드를 최대 2배 이상 개선했습니다.

#Triton #GPU #Optimization #Compiler #Profiling

2025년 11월 7일

[triton] Triton에서의 MXFP 변환 성능 최적화: TMA와 벡터화된 연산 활용

Triton의 MXFP8/MXFP4 변환 커널을 TMA와 벡터화된 스토어, 타일링 튜닝을 통해 대폭 가속화한 사례를 분석합니다.

#Triton #MXFP #GPU #Optimization #HPC

2025년 11월 6일

[Triton] gfx1250 Shared Memory 크기 정확하게 반환하기

AMD gfx1250 타겟에서 TargetInfo가 올바른 shared memory 크기를 반환하도록 switch 문으로 리팩터링

#Triton #AMD #GPU #Shared Memory

2025년 10월 23일

[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석

Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.

#Triton #NVIDIA #FP4 #GPU #Optimization #LLM

2025년 10월 20일

[triton] Expert Parallelism 기본 구현과 Reduce 커널 추가

Triton Kernels 라이브러리에 Expert Parallelism을 위한 기본 구현과 독립적인 reduce 커널을 추가하여 MoE 워크로드의 분산 처리를 지원하는 PR 분석.

#Triton #ExpertParallelism #MoE #Reduce #Distributed #GPU

2025년 10월 16일

[triton] Triton GPU 컴파일러 최적화: TMEM Store의 레이아웃 변환 폴딩(Folding) 기법

Triton의 TMEM Store 연산에서 불필요한 레이아웃 변환을 제거하여 Flex Attention 성능 저하를 해결한 최적화 기법을 분석합니다.

#Triton #Compiler #Optimization #MLIR #GPU

2025년 10월 3일