[논문리뷰] UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning본 논문은 Mixture of Experts (MoE) 모델이 겪는 높은 메모리 접근 비용 문제를 해결하고, 기존 메모리 레이어 아키텍처인 UltraMem이 8-expert MoE 모델 성능에 미치지 못하는 격차를 해소하는 것을 목표로 합니다.#Review#Memory Networks#Mixture of Experts (MoE)#Long-Context Learning#Sparse Models#Transformer Architecture#LLMs#Efficient Inference2025년 8월 27일댓글 수 로딩 중