[논문리뷰] LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation최근 LLM의 Context Length가 급증하면서 KV Cache 의 크기가 입력 시퀀스 길이에 비례하여 선형적으로 증가하며, 이는 long-context task 에서 메모리 병목 현상을 야기하여 inference scalability에 큰 제약을 초래하고 있습니다.#Review#KV Cache Eviction#Long Context LLM#Attention Score Prediction#LoRA#Parameter-Efficient#Time-to-First-Token2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning본 논문은 오픈 소스 로 제공되며, 효율적 이면서도 에이전트적 추론 능력이 뛰어난 Mixture-of-Experts (MoE) 하이브리드 Mamba-Transformer 언어 모델 인 Nemotron 3 Nano를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Mamba-Transformer#Agentic Reasoning#Long Context LLM#FP8 Quantization#Supervised Fine-Tuning#Reinforcement Learning2025년 12월 24일댓글 수 로딩 중