[SGLang] Lightning Attention: 고속 선형 어텐션 구현SGLang의 Lightning Attention을 분석한다. IO-aware 선형 어텐션의 구현, 청크 기반 처리, 기존 선형 어텐션 대비 속도 향상을 코드와 함께 살펴본다.#sglang#Lightning Attention#Linear Attention#IO-aware2026년 4월 11일댓글 수 로딩 중
[SGLang] FlashAttention 백엔드: IO-aware 타일링 어텐션의 구현SGLang의 FlashAttention 백엔드를 분석한다. IO-aware 타일링으로 HBM 접근을 최소화하는 원리, 기존 standard attention 대비 메모리·속도 개선, Prefill/Decode 모드 분기를 코드와 함께 살펴본다.#sglang#FlashAttention#IO-aware#Tiling#HBM2026년 4월 11일댓글 수 로딩 중