[논문리뷰] Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility본 논문은 decoder-only 모델에서 long-context 추론 시 발생하는 Prefill 단계의 높은 계산 비용과 Decode 단계의 KV-cache 메모리 대역폭 한계를 해결하고자 합니다.#Review#Long-Context Inference#KV-Cache#Phase-Asymmetric#Prefill#Decode#Transformer2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection대규모 언어 모델(LLMs)에서 O(L²) 의 복잡성을 가지는 어텐션 메커니즘이 긴 컨텍스트 추론의 병목이 되는 문제를 해결하고자 합니다.#Review#Sparse Attention#Long-Context Inference#LLMs#Token Selection#Efficiency#Transformer#Dynamic Sparsity2026년 2월 3일댓글 수 로딩 중