#Chunk Processing

2개의 포스트

[SGLang] FLA (Flashy Linear Attention): 청크 기반 선형 어텐션 연산

SGLang의 FLA 연산 라이브러리를 분석한다. 청크 기반 선형 어텐션의 Forward/Backward 연산, 상태 전파, Fused Normalization 등 핵심 연산을 코드와 함께 살펴본다.

#sglang #FLA #Flashy Linear Attention #Chunk Processing

2026년 4월 11일

[Loki] 청크 재정렬 시 파이프라인 처리 바이패스로 CPU 최적화

청크 flush 시 불필요한 라벨 파싱과 메타데이터 처리를 건너뛰는 최적화

#Grafana Loki #Chunk Processing #CPU Optimization #Performance

2025년 10월 17일