[논문리뷰] PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft
링크: 논문 PDF로 바로 열기
메타데이터
저자: Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su, et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- PEAM:
Parametric Embodied Agent Memory의 약자로, 외부 검색 기반의 기억을 에이전트의 파라미터 내부에 내재화(internalize)하는 메모리 프레임워크입니다. - MoE LoRA (Mixture-of-Experts LoRA): 카테고리별로 물리적으로 격리된 LoRA 어댑터를 사용하여 지식 간 간섭을 줄이고 Catastrophic Forgetting을 방지하는 파라미터 효율적인 아키텍처입니다.
- Failure-Correction Trajectory: 에이전트가 실패한 시퀀스와 이를 수정한 성공 시퀀스의 쌍으로, Behavioral Cloning(BC) 및 DPO(Direct Preference Optimization)를 통해 정책을 개선하는 학습 신호입니다.
- PV (Parameterization-worthiness Score): 특정 경험을 파라미터로 통합할 가치를 결정하는 지표로, 비용 절감, 안정성, 중복성 등을 고려합니다.
- STC (Self-Triggered Consolidation): 고정된 스케줄 대신 에이전트의 실패 통계에 기반하여 동적으로 통합 시점을 결정하는 메커니즘입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존 LLM 기반 embodied agent가 의존하는 비파라미터식(non-parametric) 기억 방식의 근본적인 한계를 해결하고자 합니다. 현재의 에이전트들은 과거의 경험이나 기술을 외부 라이브러리에 저장하고 추론 시마다 이를 컨텍스트로 재주입(re-injection)하는데, 이는 매번 발생하는 검색 및 프롬프트 생성 비용으로 인해 높은 Latency를 유발하며, 컨텍스트 예산을 소모하는 단점이 있습니다. 더욱이 이러한 설계는 경험이 쌓여도 에이전트의 정책(policy) 자체는 고정되어 있어 실질적인 학습이 일어나지 않는다는 문제를 안고 있습니다. 이를 극복하기 위해 저자들은 경험을 단순한 기록이 아닌 에이전트의 파라미터 수준에서 습득(internalize)할 수 있는 새로운 통합 프레임워크를 제안합니다 [Figure 2].

Figure 2 — PEAM의 전체 아키텍처
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 Slow tier의 deliberative LLM과 Fast tier의 파라미터식 모듈을 결합한 2계층 메모리 구조를 제안합니다. Slow tier는 개방형 추론과 코드 생성을 담당하며, 여기서 생성된 성공 및 수정된 궤적은 Episodic store에 저장됩니다. 이후 PV 점수와 STC 트리거를 통해 파라미터화할 가치가 있다고 판단된 경험은 BC+DPO 기반의 공동 학습을 거쳐 카테고리별 MoE LoRA 어댑터에 반영됩니다 [Figure 2].
실험 결과, 제안 모델은 Minecraft의 장기 과제(long-horizon tasks)에서 VOYAGER 대비 15.2%p 향상된 Success rate를 기록하였습니다. 또한 추론 효율성 면에서 비파라미터식 검색 과정을 제거함으로써 median Latency를 5.5s에서 3.2s로 42% 단축시켰고, 과제당 Tokens 소비량 또한 약 85% 감소시키는 성과를 보였습니다. 특히, 카테고리별 어댑터 격리를 통해 sequential consolidation 시에도 이전 기술에 대한 성능 저하(forgetting) 없이 안정적인 성능을 유지함을 입증하였습니다 [Table 1], [Figure 4].

Figure 4 — 순차적 통합 시 Forgetting 테스트
4. Conclusion & Impact (결론 및 시사점)
본 논문은 embodied agent의 기억을 단순한 검색 대상이 아닌 파라미터 내재화의 대상으로 재정의하였습니다. 실패를 학습 신호로 활용하는 contrastive한 접근법과 데이터 기반의 자가 통합 메커니즘은 향후 자율 에이전트의 지속적인 학습 능력을 비약적으로 향상시킬 것입니다. 이 연구는 성능 개선뿐만 아니라, 추론 비용을 획기적으로 줄임으로써 복잡한 환경에서의 실시간 상호작용 가능성을 제시했다는 점에서 학계 및 산업계에 큰 시사점을 제공합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Scaling Continual Learning to 300+ Tasks with Bi-Level Routing Mixture-of-Experts
- [논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft
- [논문리뷰] Confidence-Adaptive SwiGLU for Mixture-of-Experts
- [논문리뷰] dMoE: dLLMs with Learnable Block Experts
- [논문리뷰] Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer
Review 의 다른글
- 이전글 [논문리뷰] OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration
- 현재글 : [논문리뷰] PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft
- 다음글 [논문리뷰] PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
댓글