[SGLang] Sliding Window Attention 캐시: SWA 최적화 설계SGLang의 Sliding Window Attention 캐시를 분석한다. 고정 윈도우 크기 내 KV 캐시만 유지하는 전략, Mistral 등 SWA 모델 지원, 메모리 절약 효과를 코드와 함께 살펴본다.#sglang#Sliding Window Attention#SWA Cache#Memory Optimization2026년 4월 10일댓글 수 로딩 중
[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.#SGLang#CUDA Graph#Sliding Window Attention#성능 최적화#LLM 추론2026년 3월 31일댓글 수 로딩 중
[논문리뷰] MiMo-V2-Flash Technical Report본 논문은 빠른 추론 속도와 강력한 추론 및 에이전트 능력을 동시에 갖춘 효율적이고 비용 효율적인 대규모 언어 모델(LLM)인 MiMo-V2-Flash를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Sliding Window Attention#Multi-Token Prediction#Multi-Teacher On-Policy Distillation#Reinforcement Learning#Long-Context Modeling#Agentic AI2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Sliding Window Attention Adaptation본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.#Review#Large Language Models#Sliding Window Attention#Model Adaptation#Long Context#Inference Optimization#Fine-tuning#Chain-of-Thought#Sparse Attention2025년 12월 14일댓글 수 로딩 중
[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models본 연구는 기존 VLM의 이차적인 계산 복잡성과 증가하는 KV 캐시로 인한 장기 컨텍스트 이해 능력 및 배포 제약 문제를 해결하는 것을 목표로 합니다. 특히, 선형 어텐션의 정보 집약적 작업에서의 저조한 성능과 윈도우 기반 어텐션의 장기 기억 유지 부족이라는 한계를 극복하고자 합니다.#Review#Vision-Language Models#Linear Attention#Sliding Window Attention#Gated DeltaNet#Long-Context Understanding#Efficiency#Hybrid Architecture#Multimodal Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Native Hybrid Attention for Efficient Sequence Modeling본 논문은 Transformer의 O(n²) 연산 복잡도와 선형 어텐션 모델의 낮은 정확도 문제를 해결하기 위해, 효율적이면서도 긴 컨텍스트에서 높은 정확도를 유지할 수 있는 새로운 하이브리드 어텐션 아키텍처를 개발하는 것을 목표로 합니다.#Review#Sequence Modeling#Hybrid Attention#Transformer Architecture#Linear Attention#Sliding Window Attention#Long Context#Large Language Models (LLMs)#Efficiency2025년 10월 9일댓글 수 로딩 중