[논문리뷰] CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection본 논문은 기존 Chunked Prefill 환경에서 Block-Sparse Attention 및 Query-Subsampled KV Selection 방식이 가진 성능 한계를 극복하기 위해 CompactAttention을 제안합니다.#Review#Chunked Prefill#KV Selection#Block-Sparse Attention#Paged Attention#Zero-Copy Execution#Long-Context LLM2026년 5월 18일댓글 수 로딩 중