[논문리뷰] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing본 논문은 기존 희소 어텐션(sparse attention) 방법론의 두 가지 근본적인 한계를 해결하고자 합니다. 첫째, 토큰 중요도 예측에 추가적인 프록시(proxy)를 사용하는 복잡성과 성능 저하 문제.#Review#Sparse Attention#KV Cache Sharing#Hybrid Attention#Long-Context LLMs#Memory Optimization#Token Selection#Transformer Architecture2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection대규모 언어 모델(LLMs)에서 O(L²) 의 복잡성을 가지는 어텐션 메커니즘이 긴 컨텍스트 추론의 병목이 되는 문제를 해결하고자 합니다.#Review#Sparse Attention#Long-Context Inference#LLMs#Token Selection#Efficiency#Transformer#Dynamic Sparsity2026년 2월 3일댓글 수 로딩 중
[논문리뷰] d^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching확산 기반 대규모 언어 모델(dLLM)은 양방향 어텐션 구조 때문에 표준 Key-Value(KV) 캐시 의 이점을 활용하지 못해 추론 효율성이 떨어진다는 문제를 해결하는 것이 목표입니다.#Review#Diffusion Models#Large Language Models (LLMs)#Inference Acceleration#KV Cache#Bidirectional Attention#Adaptive Caching#Token Selection2025년 10월 1일댓글 수 로딩 중