#FLA

1개의 포스트

[SGLang] FLA (Flashy Linear Attention): 청크 기반 선형 어텐션 연산

SGLang의 FLA 연산 라이브러리를 분석한다. 청크 기반 선형 어텐션의 Forward/Backward 연산, 상태 전파, Fused Normalization 등 핵심 연산을 코드와 함께 살펴본다.

#sglang #FLA #Flashy Linear Attention #Chunk Processing

2026년 4월 11일