[논문리뷰] MMSkills: Towards Multimodal Skills for General Visual Agents

2026년 5월 17일수정: 2026년 5월 17일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Kangning Zhang, Shuai Shao, Qingyao Li, Jianghao Lin, Lingyue Fu, Shijian Wang, Wenxiang Jiao, Yuan Lu, Weiwen Liu, Weinan Zhang, Yong Yu

1. Key Terms & Definitions (핵심 용어 및 정의)

Multimodal Skill Package: 텍스트 기반의 procedure, when-to-use/when-not-to-use 조건을 담은 Runtime State Cards, 그리고 주요 상태를 시각적으로 정의하는 Multi-view Keyframes로 구성된 재사용 가능한 단위입니다.
Branch Loading: 전체 스킬 패키지를 메인 컨텍스트에 삽입하지 않고, 임시 브랜치에서 스킬 증거를 평가하여 Structured Guidance만을 메인 에이전트에 전달함으로써 컨텍스트 압박을 완화하는 추론 메커니즘입니다.
Runtime State Cards: 단순한 이미지 캡션을 넘어, 특정 시점에 스킬을 적용할지 여부를 결정하기 위한 시각적/기능적 제약 조건을 정의한 에이전트 인터페이스입니다.
Meta-skill-guided Generator: 공개된 비평가(non-evaluation) 트래젝토리를 그룹화하고, 절차를 유도하며, 시각적 상태를 그라운딩하여 자동으로 MMSkills 패키지를 생성하는 파이프라인입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 시각적 에이전트가 복잡한 환경에서 성공적인 결정을 내리기 위해 필요한 Multimodal Procedural Knowledge의 부재 문제를 해결하고자 합니다. 기존의 연구들은 재사용 가능한 기술을 텍스트나 코드 형식으로 제한하여, 시각적 상태 확인이 필수적인 GUI나 게임 환경에서의 의사결정에는 부적합하다는 한계가 있습니다 [Figure 1]. 또한, 단순히 스킬을 텍스트로 표현하거나 긴 시연 영상을 제공하는 방식은 불필요한 컨텍스트 압박을 초래하거나, 모델이 부적절한 시각적 레퍼런스에 고착(anchoring)되는 문제를 야기합니다. 따라서, 저자들은 시각적 증거와 절차를 결합하여 에이전트가 runtime에 스스로 판단하여 사용할 수 있는 효율적인 스킬 프레임워크인 MMSkills를 제안합니다 [Figure 1].

Figure 1: MMSkills 개념 및 사례

Figure 1 — MMSkills 개념 및 사례

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 MMSkills 프레임워크를 통해 시각적 에이전트가 재사용 가능한 절차를 효율적으로 활용하게 합니다 [Figure 2]. 제안된 Generator는 비평가용 공개 트래젝토리를 임베딩 및 클러스터링하여 범용적인 워크플로우를 생성하며, Branch-loaded Agent는 inference 시점에 필요한 상태 카드와 keyframe만을 선별적으로 로드하여 Structured Guidance를 생성합니다 [Figure 2]. 실험 결과, OSWorld 벤치마크에서 Gemini 3.1 Pro는 기존 44.08%에서 50.11%로, Qwen3-VL-235B는 21.34%에서 39.17%로 성능이 대폭 향상되었습니다 [Table 1]. 또한, VAB-Minecraft 및 Super Mario Bros와 같은 게임 환경에서도 일관된 성능 개선을 보이며, 이는 외부 시각적 절차 지식이 모델 내부의 사전 지식을 보완함을 입증합니다 [Table 2]. 아울러 ablation study를 통해 State Cards와 Keyframes가 상호 보완적으로 작동하며, Branch Loading 기법이 직접 삽입 방식 대비 컨텍스트 오염을 방지하고 효과적인 의사결정을 유도함을 확인하였습니다 [Figure 3].

Figure 2: MMSkills 전체 아키텍처

Figure 2 — MMSkills 전체 아키텍처

Figure 3: 컴포넌트별 Ablation 결과

Figure 3 — 컴포넌트별 Ablation 결과

4. Conclusion & Impact (결론 및 시사점)

본 논문은 시각적 에이전트를 위한 재사용 가능한 multimodal procedural knowledge인 MMSkills를 도입하여 에이전트의 범용성과 효율성을 크게 개선하였습니다. 이 연구는 기존의 텍스트 중심 스킬 라이브러리에서 벗어나 시각적 상태 기반의 절차적 지식 체계를 정립했다는 점에서 의의가 있습니다. 특히 Branch Loading 메커니즘은 장기적인 컨텍스트를 처리하는 시각적 에이전트 설계에 새로운 아키텍처를 제시합니다. 향후 본 연구는 복잡한 OS 작업 자동화 및 시각적 의사결정이 필요한 다양한 에이전트 생태계의 성능 향상에 크게 기여할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Look Before You Leap: Autonomous Exploration for LLM Agents
현재글 : [논문리뷰] MMSkills: Towards Multimodal Skills for General Visual Agents
다음글 [논문리뷰] MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware