[논문리뷰] Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention본 논문은 Linear Attention 기반 모델들에서 메모리 편집의 핵심인 erase(제거)와 write(삽입) 동작이 단일 scalar gate에 의해 묶여 있는 구조적 한계를 해결하고자 합니다.#Review#Linear Attention#Recurrent Neural Networks#Delta Rule#Fast-Weight Memory#Selective State Space#Chunkwise Parallel Training#Long-Context Retrieval2026년 5월 21일댓글 수 로딩 중
[논문리뷰] MDN: Parallelizing Stepwise Momentum for Delta Linear Attention본 논문은 기존 Linear Attention 모델들이 가지는 재귀적 업데이트의 한계인 정보 소실과 최적화 효율 저하 문제를 해결하고자 한다. 특히, 기존 모델들은 naive SGD 업데이트에 의존하여 장기 기억 및 문맥 검색(in-context retrieval) 능력에 제약이 있다.#Review#Linear Attention#Delta Rule#Stepwise Momentum#Chunkwise Parallelism#Second-order Dynamical Systems#Gated Linear Architecture2026년 5월 10일댓글 수 로딩 중
[SGLang] Lightning Attention: 고속 선형 어텐션 구현SGLang의 Lightning Attention을 분석한다. IO-aware 선형 어텐션의 구현, 청크 기반 처리, 기존 선형 어텐션 대비 속도 향상을 코드와 함께 살펴본다.#sglang#Lightning Attention#Linear Attention#IO-aware2026년 4월 11일댓글 수 로딩 중
[SGLang] KDA (Kernel-Driven Attention): 커널 기반 선형 어텐션SGLang의 KDA 선형 어텐션을 분석한다. 커널 함수를 활용한 선형 시간 어텐션, Triton/CutEDSL 커널 구현을 코드와 함께 살펴본다.#sglang#KDA#Kernel-Driven Attention#Linear Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] GDN (Gated Diagonal Net): 게이트 기반 선형 어텐션SGLang의 GDN 선형 어텐션을 분석한다. Gated Diagonal Net의 선형 복잡도 어텐션 구현, 게이트 메커니즘, FlashInfer/Triton/CutEDSL 커널 선택을 코드와 함께 살펴본다.#sglang#GDN#Linear Attention#Gated Diagonal Net2026년 4월 11일댓글 수 로딩 중
[논문리뷰] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers본 논문은 Linear Attention 기반 모델을 위한 통합 게이트 조건 주입 모듈인 GateControl을 제안합니다. 이 방식은 학습 가능한 게이트를 통해 토큰별로 중요한 조건 정보만을 선택적으로 보존함으로써, 기존의 Multimodal Attention 없이도 강력한 제어 성능을 달성합니다.#Review#Diffusion Transformer#Linear Attention#Controllable Generation#Gated Condition Injection#On-device AI2026년 4월 2일댓글 수 로딩 중
[SGLang] GDN의 kkt + solve_tril을 하나의 Triton 커널로 퓨전Gated Delta Network의 K@K^T 계산과 삼각 행렬 풀이를 단일 Triton 커널로 합쳐 HBM 왕복을 제거한다#SGLang#Triton#Kernel Fusion#Linear Attention2026년 3월 29일댓글 수 로딩 중
[sglang] AMD/ROCm 시작 크래시 수정: CuteDSL KDA 커널 Lazy Import 적용SGLang에서 CuteDSL KDA 커널의 top-level import가 AMD/ROCm 환경에서 시작 시 크래시를 유발하는 문제를 lazy import로 수정한 분석.#SGLang#AMD#ROCm#Bug Fix#Lazy Import#Linear Attention2026년 3월 25일댓글 수 로딩 중
[논문리뷰] Memory Caching: RNNs with Growing Memory본 논문은 고정된 메모리 크기 로 인해 장문 시퀀스에서 과거 정보를 잊어버리는 Recurrent Neural Networks (RNNs)의 한계를 해결하고자 합니다.#Review#Recurrent Neural Networks#Memory Caching#Sequence Modeling#Long-Context#Transformers#Linear Attention#Language Modeling#Retrieval Tasks2026년 3월 1일댓글 수 로딩 중
[논문리뷰] HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation본 논문은 생성형 추천 시스템에서 초장기 사용자 행동 시퀀스(ultra-long user behavior sequences) 모델링 시 발생하는 효율성과 정확도 간의 근본적인 트레이드오프를 해결하는 것을 목표로 합니다.#Review#Sequential Recommendation#Hybrid Attention#Temporal-Aware#Long Sequences#Generative Recommendation#Linear Attention#Softmax Attention2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Test-Time Training with KV Binding Is Secretly Linear Attention논문은 TTT(Test-Time Training) with KV binding이 단순히 테스트-타임 메모리화 또는 온라인 메타-러닝 메커니즘이라는 기존 해석에 이의를 제기 하고, 대신 TTT가 선형 어텐션(linear attention) 연산자 의 한 형태로 재해석될 수 있음을 증명하는 것을 목표로 합니다.#Review#Test-Time Training#KV Binding#Linear Attention#Sequence Modeling#Model Interpretation#Computational Efficiency#Dynamic Adaptation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy본 논문은 효율성이 높지만 정확도가 낮은 선형 어텐션 과 정확도는 높지만 연산 복잡도가 높은 소프트맥스 어텐션 간의 격차를 해소하는 것을 목표로 합니다. 구체적으로 Mamba-2 의 표현력을 향상시켜 소프트맥스 어텐션에 필적하는 정확도를 달성하면서도 선형적인 복잡도를 유지하는 새로운 어텐션 메커니즘을 제안합니다.#Review#Linear Attention#Mamba-2#High-Order Attention#Model Efficiency#Long Context#Transformer#State Space Models2026년 2월 19일댓글 수 로딩 중
[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer비디오 Diffusion Transformer의 긴 입력 시퀀스로 인해 발생하는 높은 계산 지연 시간 문제를 해결하고, 기존의 스파스 어텐션 방식이 가진 제한된 스파시티 또는 과도한 학습 오버헤드 의 한계를 극복하고자 합니다.#Review#Video Diffusion Models#Sparse Attention#Linear Attention#Computational Efficiency#Transformer Tuning#Video Generation#LoRA#Gating Mechanism2026년 1월 25일댓글 수 로딩 중
[논문리뷰] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-HeadTransformer의 핵심 모듈인 Self-Attention의 2차 시간 복잡성 으로 인한 확장성 문제를 해결하고자 합니다.#Review#Linear Attention#Multi-Head Attention#Transformer#Global Context Collapse#Representational Diversity#Image Generation#NLP#Video Generation2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers언어 모델 아키텍처 간의 성능 차이를, 특히 학술 규모의 사전 훈련에서 발생하는 높은 노이즈와 비용 문제 없이 신뢰성 있게 평가하고 이해하는 것을 목표로 합니다.#Review#Language Models#Transformer Architecture#Canon Layers#Synthetic Pretraining#Reasoning Depth#Linear Attention#State-Space Models#NoPE2025년 12월 21일댓글 수 로딩 중
[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models본 연구는 기존 VLM의 이차적인 계산 복잡성과 증가하는 KV 캐시로 인한 장기 컨텍스트 이해 능력 및 배포 제약 문제를 해결하는 것을 목표로 합니다. 특히, 선형 어텐션의 정보 집약적 작업에서의 저조한 성능과 윈도우 기반 어텐션의 장기 기억 유지 부족이라는 한계를 극복하고자 합니다.#Review#Vision-Language Models#Linear Attention#Sliding Window Attention#Gated DeltaNet#Long-Context Understanding#Efficiency#Hybrid Architecture#Multimodal Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Higher-order Linear Attention논문은 scaled dot-product attention의 이차 비용 문제를 해결하여 장문맥 언어 모델의 확장을 가능하게 하는 것을 목표로 합니다.#Review#Linear Attention#Higher-order Interactions#Causal Streaming#Associative Scans#Prefix Summaries#Transformer Architectures#State Space Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention본 논문은 Diffusion Transformer (DiT) 모델, 특히 비디오 생성에서 긴 시퀀스 길이로 인한 어텐션의 2차 시간 복잡도 문제를 해결하고자 합니다.#Review#Diffusion Transformers#Sparse Attention#Linear Attention#Model Acceleration#Video Generation#Attention Mechanisms#Fine-tuning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer본 논문은 기존 비디오 생성 모델의 높은 연산 복잡성(O(N^2))과 느린 추론 속도로 인한 비효율성을 해결하여, 고해상도(720x1280), 고품질, 장시간(분 단위) 비디오를 빠르고 효율적으로 생성 하는 소형 확산 모델인 SANA-Video를 개발하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Model#Linear Attention#Transformer#Long Video#Efficient Inference#Constant Memory#Low-Cost Training#RTX Deployment2025년 9월 30일댓글 수 로딩 중
[논문리뷰] StateX: Enhancing RNN Recall via Post-training State Expansion본 논문은 Transformer 대비 긴 컨텍스트 처리 효율이 높은 RNN 계열 모델들이 고정된 크기의 recurrent state 로 인해 장문 컨텍스트에서의 정보 회상 능력(recall ability) 이 떨어지는 문제를 해결하고자 합니다.#Review#RNN#State Expansion#Post-training#Long-context Recall#Linear Attention#State Space Models#GLA#Mamba22025년 9월 29일댓글 수 로딩 중
[논문리뷰] Speed Always Wins: A Survey on Efficient Architectures for Large Language Models본 설문조사 논문은 기존 Transformer 기반 대규모 언어 모델(LLMs)의 Quadratic 복잡성 과 높은 연산 및 메모리 요구사항 으로 인한 비효율성 문제를 해결하기 위한 혁신적인 아키텍처를 체계적으로 검토하는 것을 목표로 합니다.#Review#Large Language Models#Efficient Architectures#Transformer Optimization#Linear Attention#State Space Models#Mixture-of-Experts#Sparse Attention#Diffusion LLMs2025년 8월 19일댓글 수 로딩 중
[논문리뷰] On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective이 논문은 Softmax Attention 이 선형 Attention 보다 우수한 성능을 보이는 근본적인 이유를 규명하고, Softmax Attention 의 표현력과 동작 원리를 재귀 신경망(RNN) 관점에서 분석하는 것을 목표로 합니다.#Review#Softmax Attention#Linear Attention#Recurrent Neural Networks (RNNs)#Taylor Series Expansion#Attention Mechanisms#Expressiveness#Transformer Architectures2025년 8월 2일댓글 수 로딩 중
[논문리뷰] Kimi Linear: An Expressive, Efficient Attention Architecture표준 트랜스포머의 quadratic 시간 복잡도 와 선형적으로 증가하는 KV 캐시 의 비효율성을 극복하여, 장문 컨텍스트 및 강화 학습(RL) 환경에서 풀 어텐션(Full Attention)과 동등하거나 더 우수한 성능 을 달성하면서도 효율적인 하이브리드 선형 어텐션 아키텍처 를 개발하는 것입니다.#Review#Linear Attention#Hybrid Architecture#Kimi Delta Attention (KDA)#Gating Mechanism#Long-Context Modeling#Efficient Inference#Transformer2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Native Hybrid Attention for Efficient Sequence Modeling본 논문은 Transformer의 O(n²) 연산 복잡도와 선형 어텐션 모델의 낮은 정확도 문제를 해결하기 위해, 효율적이면서도 긴 컨텍스트에서 높은 정확도를 유지할 수 있는 새로운 하이브리드 어텐션 아키텍처를 개발하는 것을 목표로 합니다.#Review#Sequence Modeling#Hybrid Attention#Transformer Architecture#Linear Attention#Sliding Window Attention#Long Context#Large Language Models (LLMs)#Efficiency2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning본 논문은 기존의 Softmax Attention 이 긴 시퀀스 길이에서 겪는 계산 및 I/O 오버헤드 문제 를 해결하고, 순수 Linear Attention 모델의 성능 한계를 극복하기 위해 효율적인 하이브리드 아키텍처를 제안합니다.#Review#Long-Context LLM#Hybrid Attention#Linear Attention#Mixture-of-Experts#FP8 Training#GPU Optimization#Training-Inference Alignment#Reinforcement Learning2025년 10월 23일댓글 수 로딩 중