[논문리뷰] FASA: Frequency-aware Sparse Attention대규모 언어 모델(LLMs)이 긴 입력 시퀀스를 처리할 때 발생하는 KV 캐시의 막대한 메모리 사용량과 연산 병목 현상 을 해결하는 것이 목표입니다.#Review#Sparse Attention#KV Cache Optimization#Rotary Positional Embedding (RoPE)#Frequency Chunks (FCs)#LLMs#Long-Context#Training-Free2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs본 논문은 대규모 언어 모델(LLM)의 장문맥(long-context) 추론 시 발생하는 Key-Value (KV) 캐시 관련 문제를 해결하는 것을 목표로 합니다.#Review#LLMs#Long-context Reasoning#KV Cache Optimization#Speculative Sparsity#Knowledge Distillation#Adaptive Memory Management#Throughput2025년 12월 1일댓글 수 로딩 중
[논문리뷰] TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill & Decode Inference본 논문은 DeepSeek-V2 에서 도입된 Multi-Head Latent Attention (MLA) 이 Tensor Parallelism (TP) 환경에서 KV 캐시 메모리 절감 효과를 잃는 문제를 해결하고자 합니다.#Review#LLM Inference#Tensor Parallelism#KV Cache Optimization#Latent Attention#Memory Efficiency#Decoding Speedup#Prefill/Decode Separation#Reparameterization2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing본 논문은 기존 오픈소스 Diffusion Large Language Models (dLLMs)가 Autoregressive (AR) LLMs에 비해 추론 속도에서 우위를 점하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion LLMs#Faster Inference#Discrete Diffusion Forcing (D2F)#Autoregressive Generation#KV Cache Optimization#Parallel Decoding#Text Generation#Model Distillation2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning본 논문은 대규모 추론 모델(LRMs)의 긴 토큰 생성 과정에서 발생하는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.#Review#Sparse Attention#LLMs#Reasoning Tasks#Efficiency#Training-Free#Global Locality#KV Cache Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient Decoding대규모 언어 모델(LLMs)에서 증가하는 Key-Value(KV) 캐시 크기로 인한 GPU 메모리 사용량 증가와 느린 추론 속도 문제를 해결하는 것이 목표입니다.#Review#LLM#KV Cache Optimization#Model Pruning#Efficient Decoding#Memory Optimization#Static Sparsity#Transformer2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Parallel Loop Transformer for Efficient Test-Time Computation Scaling본 논문은 Looped Transformer의 고질적인 문제인 순차적인 루프 실행 으로 인한 높은 추론 지연 시간 과 선형적으로 증가하는 KV 캐시 메모리 요구사항 을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Looped Transformers#Inference Efficiency#Parallel Computation#KV Cache Optimization#Gated Sliding-Window Attention#Cross-Loop Parallelism2025년 10월 30일댓글 수 로딩 중