#Transformer Tuning

1개의 포스트

[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

비디오 Diffusion Transformer의 긴 입력 시퀀스로 인해 발생하는 높은 계산 지연 시간 문제를 해결하고, 기존의 스파스 어텐션 방식이 가진 제한된 스파시티 또는 과도한 학습 오버헤드 의 한계를 극복하고자 합니다.

#Review #Video Diffusion Models #Sparse Attention #Linear Attention #Computational Efficiency #Transformer Tuning #Video Generation #LoRA #Gating Mechanism

2026년 1월 25일