#Long Context

19개의 포스트

[논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

최근 Long-context LLM 환경에서 Token-level sparse attention 은 필수적인 연산 효율화 기법으로 자리 잡았으나, 이를 위한 핵심 모듈인 indexer가 여전히 full-prefix scan 을 수행하며 𝒪(L²) 의 연산 병목을 유발합니다.

#Review #Sparse Attention #Hierarchical Indexing #Long Context #LLM Inference #Computational Efficiency #DeepSeek

2026년 3월 30일

[논문리뷰] Query-focused and Memory-aware Reranker for Long Context Processing

본 논문은 임베딩 모델의 '기하학적 병목'으로 인한 복잡한 쿼리-문서 상호작용 인코딩의 한계를 해결하고, 기존 LLM 기반 리랭커의 글로벌 뷰 손실(포인트와이즈) 또는 미세 조정된 점수 및 Likert-scale 감독의 제약(리스트와이즈)을 극복하는 것을 목표로 합니다.

#Review #Reranking #Large Language Models #Long Context #Attention Heads #Retrieval Augmented Generation (RAG)#Listwise Reranking #Query-focused Retrieval #Memory-aware

2026년 2월 24일

[논문리뷰] 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

본 논문은 효율성이 높지만 정확도가 낮은 선형 어텐션 과 정확도는 높지만 연산 복잡도가 높은 소프트맥스 어텐션 간의 격차를 해소하는 것을 목표로 합니다. 구체적으로 Mamba-2 의 표현력을 향상시켜 소프트맥스 어텐션에 필적하는 정확도를 달성하면서도 선형적인 복잡도를 유지하는 새로운 어텐션 메커니즘을 제안합니다.

#Review #Linear Attention #Mamba-2 #High-Order Attention #Model Efficiency #Long Context #Transformer #State Space Models

2026년 2월 19일

[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.

#Review #Large Language Models #Language Agents #Long Context #Context Rot #Benchmarking #Context Management #Tool Use #Agent Evaluation #Dynamic Environments

2026년 2월 9일

[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long Context

이 논문은 현재 자동회귀 비디오 생성 모델들이 짧은 컨텍스트 윈도우와 학생-교사 불일치로 인해 장기적인 일관성(forgetting-drifting dilemma)을 유지하기 어렵다는 문제를 해결하고자 합니다.

#Review #Video Generation #Autoregressive Models #Long Context #Temporal Consistency #Diffusion Models #Context Forcing #Memory Management #Distribution Matching Distillation

2026년 2월 5일

[논문리뷰] MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

본 연구는 LLM의 장기 기억 관리 능력 을 평가하기 위한 Reward Model (RM)의 효용성과 한계 를 체계적으로 벤치마킹하는 것을 목표로 합니다. 특히, 세그먼트 방식으로 긴 컨텍스트를 처리할 때 LLM의 중간 기억 관리 과정 을 RM이 얼마나 효과적으로 평가하고 설명할 수 있는지 탐구합니다.

#Review #Reward Models #LLM Memory Management #Benchmarking #Long Context #Evaluation Metrics #Generative RMs #Memory Management Patterns

2026년 1월 20일

[논문리뷰] K-EXAONE Technical Report

LG AI Research는 K-EXAONE 이라는 대규모 다국어 언어 모델을 개발하여 최첨단 성능을 달성하는 것을 목표로 합니다. 특히, 기존 모델의 한계를 극복하고 한국의 AI 인프라 환경을 고려하여 효율적이면서도 강력한 범용 및 전문 AI 기반 모델을 제공하고자 합니다.

#Review #Multilingual Language Model #Mixture-of-Experts (MoE)#Long Context #AI Safety #Korean AI #Foundation Model #Reinforcement Learning (RL)

2026년 1월 5일

[논문리뷰] NVIDIA Nemotron 3: Efficient and Open Intelligence

Nemotron 3 가족 모델(Nano, Super, Ultra)을 공개하여 강력한 agentic, 추론, 대화 능력 을 제공하는 효율적인 오픈 모델을 구축하는 것이 목표입니다.

#Review #Hybrid Mamba-Transformer #Mixture-of-Experts #LatentMoE #NVFP4 Training #Multi-Token Prediction #Long Context #Reinforcement Learning #Open Models

2025년 12월 24일

[논문리뷰] Sliding Window Attention Adaptation

본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.

#Review #Large Language Models #Sliding Window Attention #Model Adaptation #Long Context #Inference Optimization #Fine-tuning #Chain-of-Thought #Sparse Attention

2025년 12월 14일

[논문리뷰] Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

본 연구는 대규모 언어 모델(LLM)이 초장문 컨텍스트(ultra-long context) 를 효율적으로 처리하여 '기억하는 기계'를 구축하는 과제를 해결하고자 합니다.

#Review #Large Language Models #Long Context #Sparse Attention #Hierarchical Sparse Attention (HSA)#Length Generalization #Mixture of Experts (MoE)#Transformer

2025년 11월 30일

[논문리뷰] Kwai Keye-VL 1.5 Technical Report

본 논문은 동적이고 정보 밀도가 높은 비디오 콘텐츠 이해에서 발생하는 공간 해상도와 시간 범위 간의 트레이드오프 문제를 해결하고, 기존 모델들이 비디오 이해에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Video Understanding #Slow-Fast Encoding #Long Context #Chain-of-Thought #Reinforcement Learning #Human Alignment #Native-Resolution Vision Encoder

2025년 9월 3일

[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

논문은 Nemotron Nano 2 라는 하이브리드 Mamba-Transformer 언어 모델 을 소개하며, 유사 규모 모델 대비 추론 워크로드 처리량 을 최대 6배 향상 시키면서도 최고 수준의 정확도 를 달성하는 것을 목표로 합니다.

#Review #Hybrid Architecture #Mamba-Transformer #Reasoning LLM #Model Compression #Knowledge Distillation #Long Context #High Throughput #FP8 Training #Instruction Following

2025년 8월 21일

[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Large Language Models #Benchmarking #Model Context Protocol #Tool Use #Real-World Applications #Agent Evaluation #Long Context #Unknown Tools

2025년 8월 21일

[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Software Engineering #Multi-Turn Interaction #Long Context #DAPO #Autonomous Agents #SWE-BENCH

2025년 8월 7일

[논문리뷰] Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

본 논문은 대규모 언어 모델(LLMs)이 긴 컨텍스트를 처리할 때 발생하는 사전 간섭(proactive interference) 문제와 이로 인한 성능 저하를 해결하고자 합니다.

#Review #Large Language Models #Active Context Management #Proactive Interference #Tool Augmentation #Working Memory #Context Curation #Long Context

2025년 8월 7일

[논문리뷰] Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report

본 연구는 클라우드부터 엣지 기기까지 모든 스케일에서 정보 검색을 지원하기 위해, 현대적인 아키텍처와 높은 효율성을 갖춘 소형 ColBERT 모델(mxbai-edge-colbert-v0) 을 개발하는 것을 목표로 합니다.

#Review #ColBERT #Retrieval Models #Small Models #Distillation #Long Context #Edge AI #Information Retrieval #RAG

2025년 10월 17일

[논문리뷰] LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling

현재의 Reward Model (RM)은 주로 짧은 컨텍스트에 국한되며 응답의 유용성이나 안전성과 같은 표면적인 속성에만 집중하고 있습니다.

#Review #Reward Model #Long Context #LLM Alignment #Multi-stage Training #Context Window Scaling #Preference Learning #Long-RewardBench

2025년 10월 10일

[논문리뷰] Native Hybrid Attention for Efficient Sequence Modeling

본 논문은 Transformer의 O(n²) 연산 복잡도와 선형 어텐션 모델의 낮은 정확도 문제를 해결하기 위해, 효율적이면서도 긴 컨텍스트에서 높은 정확도를 유지할 수 있는 새로운 하이브리드 어텐션 아키텍처를 개발하는 것을 목표로 합니다.

#Review #Sequence Modeling #Hybrid Attention #Transformer Architecture #Linear Attention #Sliding Window Attention #Long Context #Large Language Models (LLMs)#Efficiency

2025년 10월 9일

[논문리뷰] Sparser Block-Sparse Attention via Token Permutation

본 논문은 LLM에서 긴 컨텍스트 길이 처리 시 O(N^2) 복잡도 를 가진 self-attention 메커니즘 으로 인한 막대한 계산 비용과 메모리 병목 현상을 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Self-Attention #Block-Sparse Attention #Token Permutation #Computational Efficiency #Prefilling #Long Context #Causal Attention

2025년 10월 27일