[논문리뷰] AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

2026년 3월 18일수정: 2026년 3월 18일

링크: 논문 PDF로 바로 열기

저자: Shannan Yan, Jingchen Ni, Leqi Zheng, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

AdaMem : 장기 대화 에이전트를 위한 적응형 사용자 중심 메모리 프레임워크로, 대화 이력을 Working , Episodic , Persona , Graph 메모리 구조로 구성합니다.
Long-Horizon Dialogue Agents : 여러 턴에 걸쳐 정보를 축적하고, 사용자 목표가 진화함에 따라 중요한 세부 정보를 유지하며, 관련 증거를 적절히 검색할 수 있는 LLM 에이전트입니다.
Semantic Retrieval : 쿼리와 어휘적 또는 의미적으로 유사한 증거를 검색하는 방법으로, 기존 LLM 메모리 시스템에서 주로 사용되나 사용자 중심의 중요한 증거를 놓칠 수 있습니다.
Graph Memory : AdaMem 의 구성 요소 중 하나로, 메시지, 주제, 사실, 속성, 이벤트 및 페르소나 스냅샷을 연결하여 관계 인식 검색을 가능하게 합니다.
Multi-Agent Collaboration : AdaMem 내에서 Memory Agent , Research Agent , Working Agent 와 같은 역할 전문화된 에이전트들이 메모리 유지, 증거 검색, 응답 생성 등의 작업을 협업하여 수행하는 방식입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

최근 LLM 기반 에이전트들은 장기적인 상호작용, 개인화된 지원 및 다단계 추론을 지원하기 위해 외부 메모리에 점점 더 의존하고 있습니다. 그러나 기존 메모리 시스템은 세 가지 핵심 문제에 직면합니다. 첫째, Semantic Similarity 에 과도하게 의존하여 사용자의 안정적인 선호도나 개인 속성과 같이 쿼리와 직접적으로 유사하지 않더라도 사용자 중심 이해에 중요한 증거를 놓칠 수 있습니다. 둘째, 관련 경험이 고립된 Fragment 로 저장되어 시간적, 인과적 Coherence 가 약화되어 이벤트의 전개나 증거 연결성을 재구성하기 어렵습니다. 셋째, 질문의 요구 사항에 적응하지 못하는 정적 메모리 Granularity 를 사용하여 지나치게 거친 메모리는 관련 없는 Context 를 도입하고, 너무 미세한 Fragment 는 이벤트 간의 종속성을 모호하게 만들 수 있습니다. 이러한 한계점들은 메모리를 중복되거나, 파편화되거나, 하위 추론의 요구사항과 어긋나게 만들어 일관성 없는 행동과 근거 없는 응답으로 이어질 수 있습니다. [Figure 1]은 이전 방법론들이 고정된 길이의 Chunk 나 요약을 Semantic Retrieval 에 의존하는 한계를 보여줍니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 이러한 문제를 해결하기 위해 AdaMem 이라는 적응형 사용자 중심 메모리 프레임워크를 제안합니다. AdaMem 은 대화 이력을 Working , Episodic , Persona , Graph 메모리로 구성하여 최근 Context , 구조화된 장기 경험, 안정적인 사용자 특성, 그리고 관계 인식 연결을 통합된 프레임워크 내에서 유지합니다.

Figure 2: Model Overview. Dialogue history is organized into working, episodic, persona, and graph memories, and question answering is performed through target-aware, question-conditioned retrieval and role-specialized evidence synthesis.

는 AdaMem 의 전체 파이프라인을 보여주며, 각 발화는 Normalized Record 로 변환되어 다양한 메모리 모듈에 기록됩니다. 추론 시에는 타겟 참가자를 먼저 해결한 다음, 질문에 따라 Semantic Retrieval 과 관계 인식 Graph Expansion 을 결합한 검색 경로를 구축하고, 역할 전문화된 파이프라인을 통해 증거를 통합하고 응답을 생성합니다. 이를 위해 Memory Agent , Research Agent , Working Agent 세 가지 에이전트가 협업하며, 특히 Graph Memory 는 메시지, 주제, 사실, 속성, 이벤트 스냅샷을 연결하여 관계 인식 검색을 지원합니다.

AdaMem 은 두 가지 주요 Benchmark 에서 최신 State-of-the-Art 성능을 달성했습니다. LoCoMo Benchmark 에서 GPT-4.1-mini 백본을 사용할 때, AdaMem 은 전체 F1 score 44.65% 를 달성하여 이전 SOTA 대비 +4.4% 의 상대적 개선을 보였습니다. 특히 Temporal Question Category 에서는 F1 score 를 최대 +23.4% 향상시켰습니다. GPT-40-mini 백본에서는 전체 F1 score 41.84% 로 +12.8% 의 상대적 개선을 이루었습니다

Table 1: Performance on the LoCoMo benchmark. The best performance is highlighted in bold, and the second-best is underlined.

. PERSONAMEM Benchmark 에서는 63.25% Accuracy 를 달성하여 모든 Baseline 대비 +5.9% 의 상대적 개선을 보였으며, 특히 "일반화된 새로운 시나리오" 태스크에서 +27.3% 의 상대적 개선으로 상당한 이점을 입증했습니다

Table 2: Performance on the PERSONAMEM benchmark.

. Ablation Study 결과, Graph Memory 를 비활성화했을 때 가장 큰 성능 저하(전체 F1 score 44.65% 에서 42.63% 로 감소)가 발생하여 관계 인식 메모리의 중요성을 확인했습니다. 또한, Fusion Module 을 제거하거나 Multi-Agent Response Pipeline 을 단일 에이전트 변형으로 대체할 때도 성능 저하가 관찰되었습니다. Efficiency Analysis 에서는 AdaMem 이 중간 수준의 Token Budget 과 Latency 를 사용하면서도 가장 강력한 응답 품질을 제공하여 A-Mem 및 Zep 대비 더 높은 정확도를 달성했습니다 [Table 5].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 장기 대화 에이전트를 위한 적응형 사용자 중심 메모리 프레임워크인 AdaMem 을 제안했습니다. AdaMem 은 참가자별 Working , Episodic , Persona , Graph 기반 메모리를 질문 조건부 검색 계획 및 통합된 증거 융합과 결합하여, 보다 구조화되고 목표 지향적인 방식으로 증거를 검색하고 통합할 수 있게 합니다. LoCoMo 및 PERSONAMEM Benchmark 에 대한 실험을 통해 AdaMem 의 효과를 입증했으며, 복잡한 다중 세션 상호작용을 위한 적응형 메모리 조직 및 검색의 가치를 보여주었습니다. 이 연구는 장기 대화 에이전트를 위한 메모리 시스템이 획일적인 저장 방식과 고정된 검색 Heuristic 을 넘어, 보다 적응적이고 질문 인식적이며 사용자 중심적인 설계로 나아가야 함을 시사합니다. 하지만 시스템 복잡도, Token Cost , Latency 증가 및 상위 Parsing 이나 백본 추론에 대한 의존성, Temporal Normalization 오류 등의 한계는 여전히 남아있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models
현재글 : [논문리뷰] AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents
다음글 [논문리뷰] Alignment Makes Language Models Normative, Not Descriptive