#State Expansion

1개의 포스트

[논문리뷰] StateX: Enhancing RNN Recall via Post-training State Expansion

본 논문은 Transformer 대비 긴 컨텍스트 처리 효율이 높은 RNN 계열 모델들이 고정된 크기의 recurrent state 로 인해 장문 컨텍스트에서의 정보 회상 능력(recall ability) 이 떨어지는 문제를 해결하고자 합니다.

#Review #RNN #State Expansion #Post-training #Long-context Recall #Linear Attention #State Space Models #GLA #Mamba2

2025년 9월 29일