[논문리뷰] FASA: Frequency-aware Sparse Attention대규모 언어 모델(LLMs)이 긴 입력 시퀀스를 처리할 때 발생하는 KV 캐시의 막대한 메모리 사용량과 연산 병목 현상 을 해결하는 것이 목표입니다.#Review#Sparse Attention#KV Cache Optimization#Rotary Positional Embedding (RoPE)#Frequency Chunks (FCs)#LLMs#Long-Context#Training-Free2026년 2월 4일댓글 수 로딩 중