본문으로 건너뛰기

[논문리뷰] Memento-Skills: Let Agents Design Agents

링크: 논문 PDF로 바로 열기

저자: Huichi Zhou, Siyuan Guo, Anjie Liu, Jun Wang, et al.

1. Key Terms & Definitions

  • Memento-Skills : LLM parameter 를 업데이트하지 않고도 deployment experience 를 통해 task-specific agent 를 자율적으로 구축, 적응, 개선하는 generalist , continually-learnable LLM agent system 입니다.
  • Skill Memory ($M_t$) : 재사용 가능한 skill artefact 들의 유한하고 성장하는 컬렉션으로, 각 artefact 는 선언적 specification , prompt , 실행 가능한 code 를 포함하며, 에이전트의 영구적이고 진화하는 지식 기반 역할을 합니다.
  • Read-Write Reflective Learning (RWRL) : 에이전트가 먼저 관련 skill 을 검색하고( Read phase ), execution feedback 을 기반으로 skill library 를 업데이트 및 확장하는( Write phase ) closed-loop learning mechanism 입니다. 이를 통해 LLM parameter 업데이트 없이 continual learning 이 가능합니다.
  • Stateful Reflective Decision Process (SRDP) : 표준 MDP 를 확장하여 에이전트의 stateepisodic memory $M_t$를 추가한 개념으로, 에이전트가 자신의 deployment experience 로부터 학습하고 skill library 가 진화함에 따라 Markov property 를 유지할 수 있도록 합니다.
  • InfoNCE Routing : semantic similarity 가 아닌 execution success 에 최적화된 behavioral similarity 기반의 skill retrieval 을 위해 single-step offline RL 로 훈련된 behavior-aligned skill router 메커니즘입니다.

2. Motivation & Problem Statement

현대의 Large Language Models (LLMs)few-shot learning , supervised fine-tuning , post-training 을 통해 다양한 시나리오에서 탁월한 성능을 보이지만, 실제 활용을 위해서는 막대한 데이터와 컴퓨팅 자원을 요구하는 parameter optimization 이 필수적입니다. 이로 인해 대부분의 LLM Agent 는 배포 시 frozen model 로 운영되며, 새로운 task 에 직면했을 때 pre-training 을 통해 학습된 지식과 제한된 context window 내 정보에만 의존하게 됩니다. 이러한 한계는 LLM parameter 를 업데이트하지 않고 deployment experience 로부터 지속적으로 학습하고 진화하는 continual adaptation 을 방해합니다. 저자들은 기존 연구들이 주로 human-designed agents 에 의존하여 task-specific agent 를 구성하는 반면, Memento-Skillsgeneralist agentend-to-end 로 새로운 task 를 위한 agent 를 스스로 설계하고 개선할 필요성을 강조하며 이러한 문제에 대한 해답을 제시합니다.

3. Method & Key Results

Memento-Skills는 Read-Write Reflective Learning (RWRL) 루프를 핵심으로 하는 self-evolving agent 시스템을 제안합니다

Figure 3

이 시스템은 executable skill 을 외부 memory unit 으로 간주하며, LLM parameterfrozen 상태로 유지하면서 deployment-time learning 을 통해 skill library ($M$) 를 지속적으로 진화시킵니다 [Figure 2]. Read phase 에서는 behavior-trainable skill router 가 현재 stateful prompt 에 맞춰 가장 관련성 높은 skill 을 선택합니다. 특히, InfoNCE routing [Figure 8] 메커니즘은 semantic similarity 가 아닌 execution success 를 최적화하는 behavioral similarity 기반의 skill retrieval 을 수행하여, 에이전트의 행동이 실제 task 해결에 더 효과적으로 부합하도록 합니다. Write phase 에서는 execution feedback 을 기반으로 skill 을 업데이트하고 확장합니다. 실패 사례 발생 시 LLM-based failure attribution selector 가 오류의 원인이 되는 skill 을 식별하고, skill rewriterguardrail 또는 대체 전략을 추가하여 skillgenerality 를 유지하면서 특정 실패 모드를 해결합니다. skillutility 가 임계값 아래로 떨어지면, 시스템은 skill discovery 를 통해 기존 skill folder 를 재구성하거나 완전히 새로운 skill 을 생성하여 task space 의 새로운 영역을 커버합니다. 모든 mutationautomatic unit-test gate 를 통해 regression 을 방지하고 유효성을 검사합니다.

실험은 General AI Assistants (GAIA)Humanity's Last Exam (HLE) 두 가지 벤치마크에서 이루어졌습니다. GAIA 벤치마크에서 Memento-Skills는 Read-Write ablation baseline 대비 13.7 percentage pointstest accuracy 향상을 보이며 총 66.0% 의 정확도를 달성했습니다 [Figure 10]. HLE 벤치마크에서는 Read-Write baseline17.9% 대비 38.7%overall accuracy 를 기록하며 116.2%relative improvement 를 달성했습니다

Figure 11

이는 structured subject taxonomycross-task transfer 에 중요한 역할을 함을 보여주며, domain-aligned skill librariescross-task generalization 의 핵심임을 입증합니다. skill memory 는 GAIA 학습 후 41 skills 로, HLE 학습 후 235 skills 로 확장되었으며 [Figure 1], t-SNE projection 결과는 학습된 skill 들이 semantically coherent clusters 를 형성하며 embedding space 를 밀도 높게 커버함을 보여주었습니다 [Figure 12].

4. Conclusion & Impact

Memento-Skills는 memory-based learningskill-based learning 을 결합하여 LLM Agentautonomous 하게 skill 을 설계하고 개선할 수 있는 혁신적인 시스템을 제안합니다. 이 연구는 executable skillexternal memory 의 단위로 취급함으로써, Stateful Reflective Decision Process 의 이론적 보장을 구체적인 deployable artefact 로 전환했습니다. Read-Write Reflective Learning 루프를 통해 LLM parameter 를 업데이트하지 않고도 continual learning 을 달성하며, behavior-aligned contrastive routersurface-level similarity 대신 execution success 에 최적화된 skill retrieval 을 보장합니다. GAIAHLE 벤치마크에서의 실험 결과는 skill-as-memory 접근 방식이 정적인 static-library ablation 보다 월등한 성능을 보이며, structured domain categories 에 따라 cross-task transfer 가 가장 강력하게 일어남을 확인시켜주었습니다. 궁극적으로 Memento-Skills는 continual learningmodel weights 에만 국한되지 않고, 지속적으로 성장하고 스스로 개선하는 skill libraryfrozen LLM 의 역량을 확장하는 persistent, non-parametric intelligence layer 로 기능할 수 있다는 중요한 시사점을 제공합니다.

Figure 6

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글