[논문리뷰] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning본 논문은 대규모 추론 모델(LRMs)의 긴 토큰 생성 과정에서 발생하는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.#Review#Sparse Attention#LLMs#Reasoning Tasks#Efficiency#Training-Free#Global Locality#KV Cache Optimization2025년 8월 12일댓글 수 로딩 중