[논문리뷰] δ-mem: Efficient Online Memory for Large Language Models

2026년 5월 12일수정: 2026년 5월 12일

링크: 논문 PDF로 바로 열기

저자: Jingdi Lei, Di Zhang, Junxian Li, Weida Wang, Kaixuan Fan, Xiang Liu, Qihan Liu, Xiaoteng Ma, Baian Chen, Soujanya Poria

## 1. Key Terms & Definitions (핵심 용어 및 정의)

δ-mem: 고정된 Frozen Backbone을 유지하면서 과거 정보를 압축된 Online State로 관리하고, 이를 통해 Attention을 Steering하는 경량화된 메모리 메커니즘입니다.
OSAM (Online State of Associative Memory): 과거 토큰 정보를 고정된 크기의 행렬로 압축하여, Delta-rule learning을 통해 지속적으로 업데이트되는 associative memory 상태입니다.
Writing Granularity: 메모리 상태를 업데이트하는 단위를 정의하며, 토큰 단위의 TSW, 세그먼트 단위의 SSW, 다중 상태 조직화인 MSW 전략으로 구분됩니다.
Low-rank Correction: 메모리에서 추출한 read signal을 선형 투영하여 Attention Computation 과정의 쿼리(Query)와 출력(Output)에 보정값을 더하는 기법입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 연구는 LLM이 장기적인 대화와 에이전트 작업에서 과거 이력을 효과적으로 누적하고 재사용하지 못하는 문제를 해결하고자 합니다.
기존의 방식인 Context Window 확장은 연산 복잡도가 Quadratic하게 증가하고, 정보 누락이나 Context rot 현상이 발생하는 한계가 있습니다.
또한, 기존의 Textual memory는 검색 노이즈와 정보 손실이 발생하며, Parametric memory는 동적인 변화 대응이 어렵고, Outside-channel memory는 추가적인 모듈로 인해 통합 복잡도가 높다는 문제점이 있습니다.
이러한 제약을 극복하기 위해 본 논문은 [Figure 1]과 같이 모델의 내부 Attention 구조와 직접 결합된 compact하고 동적인 메모리 메커니즘을 제안합니다.

Figure 1: δ-mem의 전체 아키텍처 및 온라인 메모리 업데이트 흐름도를 제시함

Figure 1 — δ-mem의 전체 아키텍처 및 온라인 메모리 업데이트 흐름도를 제시함

## 3. Method & Key Results (제안 방법론 및 핵심 결과)

δ-mem은 모델의 히든 스테이트(Hidden State)를 저차원 associative memory 공간으로 투영하고, Delta-rule을 사용하여 현재의 정보가 기존 메모리 상태를 지속적으로 수정하게 합니다.
메모리 읽기 시, 고정된 크기의 OSAM을 쿼리하여 history-dependent steering signal을 생성하며, 이는 전체적인 Attention 계산에 앞서 저차원 보정값으로 적용되어 모델의 reasoning을 최적화합니다.
[Table 1]에서 볼 수 있듯이, δ-mem (TSW)은 Qwen3-4B-Instruct 모델에서 51.66%의 평균 점수를 기록하여, 베이스라인(46.79%) 대비 4.87%p의 성능 향상을 달성했습니다.
특히 MemoryAgentBench에서 1.31배, LoCoMo에서 1.20배의 성능 향상을 보이며, [Figure 4]에 명시된 것처럼 전체 파라미터의 0.12% 수준인 4.87M의 파라미터만으로도 탁월한 효율성을 확보했습니다.

Table 1: 다양한 메모리 메커니즘 대비 δ-mem의 성능 우위를 정량적으로 보여줌

Table 1 — 다양한 메모리 메커니즘 대비 δ-mem의 성능 우위를 정량적으로 보여줌

Figure 4: 기존 메모리 증강 방식 대비 학습 가능한 파라미터 효율성을 비교함

Figure 4 — 기존 메모리 증강 방식 대비 학습 가능한 파라미터 효율성을 비교함

## 4. Conclusion & Impact (결론 및 시사점)

δ-mem은 고정된 Frozen Backbone을 사용하면서도 고성능의 온라인 메모리 기능을 구현할 수 있는 효율적인 인터페이스를 제공합니다.
본 연구는 연산 효율성과 성능 사이의 균형을 맞춘 경량 메모리 시스템이 LLM 기반 에이전트의 장기 기억력을 개선하는 데 효과적임을 입증했습니다.
향후 본 연구는 복잡한 하드웨어 리소스 최적화 없이도 대규모 모델을 긴 문맥의 지속적 상호작용이 필요한 태스크에 활용할 수 있게 함으로써, 에이전트 지능의 실용성을 한층 높일 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글