[논문리뷰] MDN: Parallelizing Stepwise Momentum for Delta Linear Attention본 논문은 기존 Linear Attention 모델들이 가지는 재귀적 업데이트의 한계인 정보 소실과 최적화 효율 저하 문제를 해결하고자 한다. 특히, 기존 모델들은 naive SGD 업데이트에 의존하여 장기 기억 및 문맥 검색(in-context retrieval) 능력에 제약이 있다.#Review#Linear Attention#Delta Rule#Stepwise Momentum#Chunkwise Parallelism#Second-order Dynamical Systems#Gated Linear Architecture2026년 5월 10일댓글 수 로딩 중