[논문리뷰] SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space대규모 언어 모델(LLM)에서 quadratic 연산 복잡성 을 갖는 full attention 의 한계를 극복하기 위해, sparse attention 의 성능 저하 및 부족한 sparsity 문제를 해결하고자 합니다.#Review#Sparse Attention#Full Attention#Large Language Models (LLMs)#Context Length#Attention Sparsity#Alignment Loss#Long-Context Extrapolation2025년 11월 25일댓글 수 로딩 중