[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

2026년 3월 10일수정: 2026년 3월 10일

링크: 논문 PDF로 바로 열기

저자: Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, et al.

핵심 연구 목표

본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다. 기존 VLM의 자기 개선 방식이 시드 이미지 데이터에 의존하여 확장성과 다양성에 한계가 있었던 문제를 해결하고자 합니다.

핵심 방법론

MM-Zero는 Proposer-Coder-Solver 로 구성된 삼중 역할(tri-role) 자기 진화 프레임워크 를 제안합니다. Proposer 는 추상적인 시각 개념과 질문을 생성하고, Coder 는 이를 실행 가능한 코드(예: Python, SVG) 로 변환하여 시각적 이미지를 렌더링합니다. Solver 는 생성된 시각 콘텐츠에 대한 멀티모달 추론을 수행하며, 모든 역할은 동일한 기반 모델(base model) 에서 시작하여 Group Relative Policy Optimization (GRPO) 으로 최적화됩니다. 보상 메커니즘은 실행 피드백, 시각적 검증, 난이도 균형을 통합하여 설계되었습니다.

주요 결과

MM-Zero는 VLM 추론 성능을 다양한 멀티모달 벤치마크에서 일관되게 향상시켰습니다. 특히, Qwen3-VL-8B-Instruct 모델의 경우, 3차 반복 학습 후 평균 시각 수학 추론 점수가 54.1% 에 도달하여 기본 모델의 50.7% 대비 4%p 개선 을 보였습니다. 4B 모델은 50.2%에서 53.4%로, Mimo-VL-7B-SFT 는 50.9%에서 56.0%로 향상되었습니다. Coder의 이미지 렌더링 성공률과 솔버빌리티 또한 훈련 과정에서 꾸준히 개선되었습니다.

AI 실무자를 위한 시사점

MM-Zero는 외부 데이터 없이 VLM의 자기 개선을 가능하게 함으로써, 고비용의 데이터 수집 및 레이블링 부담 을 크게 줄여줍니다. 특히, 실행 가능한 코드를 통한 시각적 콘텐츠 생성 은 무한한 다양성과 난이도 조절이 가능한 학습 환경을 제공하며, 이는 향후 AI 시스템이 스스로 복잡한 멀티모달 추론 능력을 개발하는 데 중요한 방향을 제시합니다. 멀티 에이전트 시스템(multi-agent system) 과 합성 데이터 생성(synthetic data generation) 을 통한 AI 모델 훈련 패러다임의 확장을 시사합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
현재글 : [논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
다음글 [논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants