#Gating Mechanism

2개의 포스트

[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

arXiv에 게시된 'SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.

#Review #Video Diffusion Models #Sparse Attention #Linear Attention #Computational Efficiency #Transformer Tuning #Video Generation #LoRA #Gating Mechanism

2026년 1월 25일

[논문리뷰] Kimi Linear: An Expressive, Efficient Attention Architecture

arXiv에 게시된 'Kimi Linear: An Expressive, Efficient Attention Architecture' 논문에 대한 자세한 리뷰입니다.

#Review #Linear Attention #Hybrid Architecture #Kimi Delta Attention (KDA)#Gating Mechanism #Long-Context Modeling #Efficient Inference #Transformer

2025년 10월 31일