#IO-aware

2개의 포스트

[SGLang] Lightning Attention: 고속 선형 어텐션 구현

SGLang의 Lightning Attention을 분석한다. IO-aware 선형 어텐션의 구현, 청크 기반 처리, 기존 선형 어텐션 대비 속도 향상을 코드와 함께 살펴본다.

#sglang #Lightning Attention #Linear Attention #IO-aware

2026년 4월 11일

[SGLang] FlashAttention 백엔드: IO-aware 타일링 어텐션의 구현

SGLang의 FlashAttention 백엔드를 분석한다. IO-aware 타일링으로 HBM 접근을 최소화하는 원리, 기존 standard attention 대비 메모리·속도 개선, Prefill/Decode 모드 분기를 코드와 함께 살펴본다.

#sglang #FlashAttention #IO-aware #Tiling #HBM

2026년 4월 11일