[논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention최근 Long-context LLM 환경에서 Token-level sparse attention 은 필수적인 연산 효율화 기법으로 자리 잡았으나, 이를 위한 핵심 모듈인 indexer가 여전히 full-prefix scan 을 수행하며 𝒪(L²) 의 연산 병목을 유발합니다.#Review#Sparse Attention#Hierarchical Indexing#Long Context#LLM Inference#Computational Efficiency#DeepSeek2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Query-focused and Memory-aware Reranker for Long Context Processing본 논문은 임베딩 모델의 '기하학적 병목'으로 인한 복잡한 쿼리-문서 상호작용 인코딩의 한계를 해결하고, 기존 LLM 기반 리랭커의 글로벌 뷰 손실(포인트와이즈) 또는 미세 조정된 점수 및 Likert-scale 감독의 제약(리스트와이즈)을 극복하는 것을 목표로 합니다.#Review#Reranking#Large Language Models#Long Context#Attention Heads#Retrieval Augmented Generation (RAG)#Listwise Reranking#Query-focused Retrieval#Memory-aware2026년 2월 24일댓글 수 로딩 중
[논문리뷰] 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy본 논문은 효율성이 높지만 정확도가 낮은 선형 어텐션 과 정확도는 높지만 연산 복잡도가 높은 소프트맥스 어텐션 간의 격차를 해소하는 것을 목표로 합니다. 구체적으로 Mamba-2 의 표현력을 향상시켜 소프트맥스 어텐션에 필적하는 정확도를 달성하면서도 선형적인 복잡도를 유지하는 새로운 어텐션 메커니즘을 제안합니다.#Review#Linear Attention#Mamba-2#High-Order Attention#Model Efficiency#Long Context#Transformer#State Space Models2026년 2월 19일댓글 수 로딩 중
[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.#Review#Large Language Models#Language Agents#Long Context#Context Rot#Benchmarking#Context Management#Tool Use#Agent Evaluation#Dynamic Environments2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long Context이 논문은 현재 자동회귀 비디오 생성 모델들이 짧은 컨텍스트 윈도우와 학생-교사 불일치로 인해 장기적인 일관성(forgetting-drifting dilemma)을 유지하기 어렵다는 문제를 해결하고자 합니다.#Review#Video Generation#Autoregressive Models#Long Context#Temporal Consistency#Diffusion Models#Context Forcing#Memory Management#Distribution Matching Distillation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models본 연구는 LLM의 장기 기억 관리 능력 을 평가하기 위한 Reward Model (RM)의 효용성과 한계 를 체계적으로 벤치마킹하는 것을 목표로 합니다. 특히, 세그먼트 방식으로 긴 컨텍스트를 처리할 때 LLM의 중간 기억 관리 과정 을 RM이 얼마나 효과적으로 평가하고 설명할 수 있는지 탐구합니다.#Review#Reward Models#LLM Memory Management#Benchmarking#Long Context#Evaluation Metrics#Generative RMs#Memory Management Patterns2026년 1월 20일댓글 수 로딩 중
[논문리뷰] K-EXAONE Technical ReportLG AI Research는 K-EXAONE 이라는 대규모 다국어 언어 모델을 개발하여 최첨단 성능을 달성하는 것을 목표로 합니다. 특히, 기존 모델의 한계를 극복하고 한국의 AI 인프라 환경을 고려하여 효율적이면서도 강력한 범용 및 전문 AI 기반 모델을 제공하고자 합니다.#Review#Multilingual Language Model#Mixture-of-Experts (MoE)#Long Context#AI Safety#Korean AI#Foundation Model#Reinforcement Learning (RL)2026년 1월 5일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron 3: Efficient and Open IntelligenceNemotron 3 가족 모델(Nano, Super, Ultra)을 공개하여 강력한 agentic, 추론, 대화 능력 을 제공하는 효율적인 오픈 모델을 구축하는 것이 목표입니다.#Review#Hybrid Mamba-Transformer#Mixture-of-Experts#LatentMoE#NVFP4 Training#Multi-Token Prediction#Long Context#Reinforcement Learning#Open Models2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Sliding Window Attention Adaptation본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.#Review#Large Language Models#Sliding Window Attention#Model Adaptation#Long Context#Inference Optimization#Fine-tuning#Chain-of-Thought#Sparse Attention2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models본 연구는 대규모 언어 모델(LLM)이 초장문 컨텍스트(ultra-long context) 를 효율적으로 처리하여 '기억하는 기계'를 구축하는 과제를 해결하고자 합니다.#Review#Large Language Models#Long Context#Sparse Attention#Hierarchical Sparse Attention (HSA)#Length Generalization#Mixture of Experts (MoE)#Transformer2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Kwai Keye-VL 1.5 Technical Report본 논문은 동적이고 정보 밀도가 높은 비디오 콘텐츠 이해에서 발생하는 공간 해상도와 시간 범위 간의 트레이드오프 문제를 해결하고, 기존 모델들이 비디오 이해에서 겪는 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal LLMs#Video Understanding#Slow-Fast Encoding#Long Context#Chain-of-Thought#Reinforcement Learning#Human Alignment#Native-Resolution Vision Encoder2025년 9월 3일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model논문은 Nemotron Nano 2 라는 하이브리드 Mamba-Transformer 언어 모델 을 소개하며, 유사 규모 모델 대비 추론 워크로드 처리량 을 최대 6배 향상 시키면서도 최고 수준의 정확도 를 달성하는 것을 목표로 합니다.#Review#Hybrid Architecture#Mamba-Transformer#Reasoning LLM#Model Compression#Knowledge Distillation#Long Context#High Throughput#FP8 Training#Instruction Following2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.#Review#Large Language Models#Benchmarking#Model Context Protocol#Tool Use#Real-World Applications#Agent Evaluation#Long Context#Unknown Tools2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Software Engineering#Multi-Turn Interaction#Long Context#DAPO#Autonomous Agents#SWE-BENCH2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management본 논문은 대규모 언어 모델(LLMs)이 긴 컨텍스트를 처리할 때 발생하는 사전 간섭(proactive interference) 문제와 이로 인한 성능 저하를 해결하고자 합니다.#Review#Large Language Models#Active Context Management#Proactive Interference#Tool Augmentation#Working Memory#Context Curation#Long Context2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report본 연구는 클라우드부터 엣지 기기까지 모든 스케일에서 정보 검색을 지원하기 위해, 현대적인 아키텍처와 높은 효율성을 갖춘 소형 ColBERT 모델(mxbai-edge-colbert-v0) 을 개발하는 것을 목표로 합니다.#Review#ColBERT#Retrieval Models#Small Models#Distillation#Long Context#Edge AI#Information Retrieval#RAG2025년 10월 17일댓글 수 로딩 중
[논문리뷰] LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling현재의 Reward Model (RM)은 주로 짧은 컨텍스트에 국한되며 응답의 유용성이나 안전성과 같은 표면적인 속성에만 집중하고 있습니다.#Review#Reward Model#Long Context#LLM Alignment#Multi-stage Training#Context Window Scaling#Preference Learning#Long-RewardBench2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Native Hybrid Attention for Efficient Sequence Modeling본 논문은 Transformer의 O(n²) 연산 복잡도와 선형 어텐션 모델의 낮은 정확도 문제를 해결하기 위해, 효율적이면서도 긴 컨텍스트에서 높은 정확도를 유지할 수 있는 새로운 하이브리드 어텐션 아키텍처를 개발하는 것을 목표로 합니다.#Review#Sequence Modeling#Hybrid Attention#Transformer Architecture#Linear Attention#Sliding Window Attention#Long Context#Large Language Models (LLMs)#Efficiency2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Sparser Block-Sparse Attention via Token Permutation본 논문은 LLM에서 긴 컨텍스트 길이 처리 시 O(N^2) 복잡도 를 가진 self-attention 메커니즘 으로 인한 막대한 계산 비용과 메모리 병목 현상을 해결하고자 합니다.#Review#Large Language Models (LLMs)#Self-Attention#Block-Sparse Attention#Token Permutation#Computational Efficiency#Prefilling#Long Context#Causal Attention2025년 10월 27일댓글 수 로딩 중