#Sliding Window Attention

6개의 포스트

[SGLang] Sliding Window Attention 캐시: SWA 최적화 설계

SGLang의 Sliding Window Attention 캐시를 분석한다. 고정 윈도우 크기 내 KV 캐시만 유지하는 전략, Mistral 등 SWA 모델 지원, 메모리 절약 효과를 코드와 함께 살펴본다.

#sglang #Sliding Window Attention #SWA Cache #Memory Optimization

2026년 4월 10일

[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존

SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.

#SGLang #CUDA Graph #Sliding Window Attention #성능 최적화 #LLM 추론

2026년 3월 31일

[논문리뷰] MiMo-V2-Flash Technical Report

arXiv에 게시된 'MiMo-V2-Flash Technical Report' 논문에 대한 자세한 리뷰입니다.

#Review #Mixture-of-Experts #Sliding Window Attention #Multi-Token Prediction #Multi-Teacher On-Policy Distillation #Reinforcement Learning #Long-Context Modeling #Agentic AI

2026년 1월 6일

[논문리뷰] Sliding Window Attention Adaptation

arXiv에 게시된 'Sliding Window Attention Adaptation' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models #Sliding Window Attention #Model Adaptation #Long Context #Inference Optimization #Fine-tuning #Chain-of-Thought #Sparse Attention

2025년 12월 14일

[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

arXiv에 게시된 'InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Vision-Language Models #Linear Attention #Sliding Window Attention #Gated DeltaNet #Long-Context Understanding #Efficiency #Hybrid Architecture #Multimodal Learning

2025년 12월 10일

[논문리뷰] Native Hybrid Attention for Efficient Sequence Modeling

Yu Cheng이 arXiv에 게시한 'Native Hybrid Attention for Efficient Sequence Modeling' 논문에 대한 자세한 리뷰입니다.

#Review #Sequence Modeling #Hybrid Attention #Transformer Architecture #Linear Attention #Sliding Window Attention #Long Context #Large Language Models (LLMs)#Efficiency

2025년 10월 9일