[논문리뷰] MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?

2026년 6월 3일수정: 2026년 6월 3일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Xinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu

1. Key Terms & Definitions (핵심 용어 및 정의)

Guide-to-Skill Learning: 인간이 작성한 비정형(in-the-wild) 가이드 문서를 에이전트가 실행 가능한 Skill로 변환하고, 시행착오를 통해 이를 지속적으로 개선하는 학습 패러다임.
MMG2Skill-Bench: GUI 제어, 오픈 월드 게임, 전략 게임 등 3가지 도메인에 걸친 130개의 태스크로 구성된 가이드-스킬 학습 전용 벤치마크.
MMG2Skill: 가이드를 편집 가능한 SKILL.md 형태로 컴파일하고, 에이전트의 수행 궤적(trajectory)에 기반한 피드백으로 스킬을 자동 수정하는 폐루프(closed-loop) 프레임워크.
Procedural Grounding: 에이전트가 주어진 절차적 지식을 현재의 관찰 환경과 성공적으로 연결(anchoring)하여, 실행 과정에서 발생하는 오차를 교정하고 목표를 달성하는 능력.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 웹상의 방대한 절차적 지식을 에이전트가 실행 가능한 Skill로 활용하지 못하는 근본적인 문제(procedural grounding 부족)를 해결한다. 기존의 에이전트 연구는 외부 지식을 직접 활용하거나 탐색을 통해 직접 스킬을 발견해야 했으나, 웹상의 인간 중심 가이드는 모호하고 환경과 괴리되어 있어 직접적인 활용이 어려웠다. 저자들은 이러한 'In-the-Wild Guide'를 단순히 프롬프팅하는 것만으로는 오히려 성능이 저하되는 현상을 발견하였으며, 이를 구조화하고 실행 가능한 형태로 변환할 체계적인 프레임워크가 부재함을 지적한다 [Figure 1].

Figure 1: 가이드-스킬 학습의 동기

Figure 1 — 가이드-스킬 학습의 동기

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 MMG2Skill 프레임워크를 통해 가이드를 구조화된 SKILL.md로 변환하고, 에이전트의 실행 궤적을 분석하여 스킬을 지속적으로 수정(Revision)하는 순환 구조를 제안한다 [Figure 3]. 이 과정에서 벤치마크 점수를 직접 사용하지 않고, 에이전트가 관찰 가능한 궤적 내에서 발생하는 근본 원인(root-cause)을 분석하여 스킬을 수정한다 [Figure 2]. 실험 결과, MMG2Skill은 6개의 VLM 백본 모델 모두에서 vanilla baseline 에이전트 대비 +12.8%p에서 +25.3%p의 매크로 평균 성능 향상을 기록하였다. 특히, Analyzer-based early stopping 도입 시 후반부 성능 회귀(late-stage regression)를 효과적으로 방지하였으며, 성공 가능성이 높은 태스크에서 전체 시도 횟수를 25%~53% 절감하는 높은 효율성을 입증하였다 [Table 1], [Table 3].

Figure 3: MMG2Skill 프레임워크 아키텍처

Figure 3 — MMG2Skill 프레임워크 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 연구는 공공 웹상의 가이드 자료를 에이전트의 자가 발전형 Skill로 변환하는 것이 가능하며, 이를 위한 구조적 변환과 궤적 기반 피드백이 필수적임을 입증하였다. MMG2Skill 프레임워크는 고비용의 전문가 데이터셋 구축 없이도 실질적인 성능 향상을 도출할 수 있어, 에이전트의 절차적 지식 활용 범위를 획기적으로 확장할 것으로 기대된다. 또한, 이 연구는 에이전트 배포 시 성능 안정성을 확보하기 위한 Early-stopping의 중요성을 제시하며, 향후 자율 에이전트가 실세계의 복잡한 절차적 태스크를 수행하는 기반 기술로서 중요한 이정표가 될 것이다.

Figure 5: Early-stop vs Full-run 배포 성능 비교

Figure 5 — Early-stop vs Full-run 배포 성능 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
현재글 : [논문리뷰] MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?
다음글 [논문리뷰] MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation