#FlashAttention

9개의 포스트

[SGLang] FlashAttention 백엔드: IO-aware 타일링 어텐션의 구현

SGLang의 FlashAttention 백엔드를 분석한다. IO-aware 타일링으로 HBM 접근을 최소화하는 원리, 기존 standard attention 대비 메모리·속도 개선, Prefill/Decode 모드 분기를 코드와 함께 살펴본다.

#sglang #FlashAttention #IO-aware #Tiling #HBM

2026년 4월 11일

[ollama] Ollama의 Gemma 4 모델 Flash Attention 비활성화: 성능 회귀(Regression) 해결 사례

Gemma 4 모델에서 Flash Attention 적용 후 발생한 40% 이상의 성능 저하 문제를 Revert를 통해 해결한 사례를 분석합니다.

#Ollama #FlashAttention #Performance #Gemma4 #Optimization

2026년 4월 4일

[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입

FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention #CUDA #Optimization #LLM

2026년 3월 25일

[triton] AMD MXFP FA 예제에서 TDM Store 도입으로 Output 저장 최적화

buffer_store 기반의 수동 레이아웃 관리를 TDM store로 대체하여 코드를 단순화하고 메모리 접근 효율을 높인 사례를 분석합니다.

#Triton #AMD #GPU #TDM #FlashAttention

2026년 3월 23일

[triton] AMD GFX1250 MXFP Flash Attention 예제 커널 대규모 리팩터링

preshuffle 로직 제거, TDM store 도입, expand_dims 전환 등 GFX1250 FA 예제를 단순화하고 성능을 개선한 리팩터링을 분석합니다.

#Triton #AMD #GPU #FlashAttention #GFX1250 #Refactoring

2026년 3월 12일

[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트

AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.

#Triton #AMD #gfx1250 #FlashAttention #MXFP #Gluon

2026년 2월 20일

[triton] Triton AMD 커널 최적화: 루프 언롤링(Loop Unrolling)을 통한 성능 향상

Triton AMD FlashAttention 커널에서 루프 언롤링(unroll_factor=2)을 적용하여 레지스터 회전 효율을 높이고 연산 오버헤드를 줄인 사례 분석.

#Triton #AMD #GPU #Optimization #FlashAttention

2025년 12월 15일

[논문리뷰] LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

arXiv에 게시된 'LiteAttention: A Temporal Sparse Attention for Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion Transformers #Sparse Attention #Temporal Coherence #Video Generation #Computational Efficiency #FlashAttention #CUDA Kernels

2025년 11월 16일

[Triton] AMD FAv3 pingpong에서 s_xxx 명령어 배치 최적화

Memory cluster와 compute cluster 사이의 스칼라 명령어 배치를 개선하여 GPU 파이프라인 활용도를 높임

#Triton #AMD #Scheduling #Performance #FlashAttention

2025년 11월 3일