[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer비디오 Diffusion Transformer의 긴 입력 시퀀스로 인해 발생하는 높은 계산 지연 시간 문제를 해결하고, 기존의 스파스 어텐션 방식이 가진 제한된 스파시티 또는 과도한 학습 오버헤드 의 한계를 극복하고자 합니다.#Review#Video Diffusion Models#Sparse Attention#Linear Attention#Computational Efficiency#Transformer Tuning#Video Generation#LoRA#Gating Mechanism2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Kimi Linear: An Expressive, Efficient Attention Architecture표준 트랜스포머의 quadratic 시간 복잡도 와 선형적으로 증가하는 KV 캐시 의 비효율성을 극복하여, 장문 컨텍스트 및 강화 학습(RL) 환경에서 풀 어텐션(Full Attention)과 동등하거나 더 우수한 성능 을 달성하면서도 효율적인 하이브리드 선형 어텐션 아키텍처 를 개발하는 것입니다.#Review#Linear Attention#Hybrid Architecture#Kimi Delta Attention (KDA)#Gating Mechanism#Long-Context Modeling#Efficient Inference#Transformer2025년 10월 31일댓글 수 로딩 중