#Memory Networks

1개의 포스트

[논문리뷰] UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

본 논문은 Mixture of Experts (MoE) 모델이 겪는 높은 메모리 접근 비용 문제를 해결하고, 기존 메모리 레이어 아키텍처인 UltraMem이 8-expert MoE 모델 성능에 미치지 못하는 격차를 해소하는 것을 목표로 합니다.

#Review #Memory Networks #Mixture of Experts (MoE)#Long-Context Learning #Sparse Models #Transformer Architecture #LLMs #Efficient Inference

2025년 8월 27일