본문으로 건너뛰기

#Linear Attention

25개의 포스트

[논문리뷰] MDN: Parallelizing Stepwise Momentum for Delta Linear Attention

댓글 수 로딩 중

[논문리뷰] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

댓글 수 로딩 중

[논문리뷰] HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

댓글 수 로딩 중

[논문리뷰] Test-Time Training with KV Binding Is Secretly Linear Attention

댓글 수 로딩 중

[논문리뷰] 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

댓글 수 로딩 중

[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

댓글 수 로딩 중

[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

댓글 수 로딩 중

[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

댓글 수 로딩 중

[논문리뷰] On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective

댓글 수 로딩 중

[논문리뷰] Kimi Linear: An Expressive, Efficient Attention Architecture

댓글 수 로딩 중

[논문리뷰] Native Hybrid Attention for Efficient Sequence Modeling

댓글 수 로딩 중

[논문리뷰] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

댓글 수 로딩 중