[SGLang] FlashAttention 백엔드: IO-aware 타일링 어텐션의 구현SGLang의 FlashAttention 백엔드를 분석한다. IO-aware 타일링으로 HBM 접근을 최소화하는 원리, 기존 standard attention 대비 메모리·속도 개선, Prefill/Decode 모드 분기를 코드와 함께 살펴본다.#sglang#FlashAttention#IO-aware#Tiling#HBM2026년 4월 11일댓글 수 로딩 중