[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning

2026년 4월 6일수정: 2026년 4월 6일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Gabriel Sarch, Linrong Cai, Qunzhong Wang, Haoyang Wu, Danqi Chen, Zhuang Liu

1. Key Terms & Definitions (핵심 용어 및 정의)

Vero-600K : 59개의 데이터셋에서 선별하여 구성한 600K 규모의 학습 데이터셋으로, 6개의 핵심 태스크 카테고리로 분류되어 멀티태스크 RL 학습에 활용됨.
GSPO (Group Relative Policy Optimization with Sequence-level ratio) : GRPO의 토큰 단위 중요도 비(ratio)를 시퀀스 단위로 확장하여 학습 안정성을 높인 RL 알고리즘.
VeroEval : 다양한 시각적 추론 능력을 평가하기 위해 30개의 챌린징한 벤치마크로 구성된 범용 평가 스위트.
Task-routed Reward : 태스크 유형에 따라 적절한 보상 함수(Verifiers)를 동적으로 라우팅하여 적용하는 보상 시스템.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 폐쇄적인 환경에서 개발된 강력한 VLM의 RL 학습 레시피와 데이터셋이 공개되지 않아 일반적인 시각적 추론 모델 구축의 투명성이 결여된 문제를 해결하고자 한다. 기존의 오픈 소스 모델들은 주로 수학 등 특정 도메인에만 집중하거나, 데이터 다양성과 보상 설계에 대한 체계적인 연구가 부족하다는 한계가 있다. 저자들은 이러한 정보 비대칭을 해소하고, 다양한 시각적 태스크(차트, 과학, 공간 이해 등)에서 범용적으로 작동하는 추론 모델을 구현하기 위한 완전히 공개된 RL 레시피를 제안한다. 이를 위해 데이터 선별, 필터링, 태스크 균형 조정이 포함된 포괄적인 학습 프레임워크를 정립하였다 [Figure 3].

Figure 3: 데이터 큐레이션 파이프라인

Figure 3 — 데이터 큐레이션 파이프라인

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K 를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 [Figure 2]. 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다. 실험 결과, 제안 모델은 기존 베이스 모델 대비 VeroEval 에서 평균 3.7–5.5 포인트 의 정량적 성능 향상을 기록하였다. 특히 Vero-Qwen3T-8B 는 기존의 proprietary thinking data를 사용한 Qwen3-VL-8B-Thinking 모델을 30개 벤치마크 중 24개에서 상회하는 성능을 입증하였다 [Table 3]. 또한, 데이터 다양성 분석을 통해 다중 태스크 학습이 개별 태스크 학습 시 발생하는 부정적 전이(negative transfer)를 제거하고 전반적인 일반화 능력을 향상시킴을 확인하였다 [Figure 7].

Figure 2: Vero-600K 태스크 구성

Figure 2 — Vero-600K 태스크 구성

4. Conclusion & Impact (결론 및 시사점)

본 연구는 고품질 데이터 믹스, 균형 잡힌 태스크 라우팅, 그리고 세밀하게 설계된 보상 함수가 결합된 오픈 RL 레시피만으로도 SOTA 수준의 범용 시각적 추론 모델 구현이 가능함을 입증하였다. 이는 폐쇄적 모델 중심의 현재 기술 생태계에서 투명한 연구 모델을 제시하며, 향후 VLM 분야의 정교한 RL 학습 기법과 데이터 설계 연구에 강력한 이정표가 될 것이다. 저자들은 데이터, 코드, 모델 전체를 공개함으로써 학계와 산업계의 재생산성과 후속 연구를 적극 지원하고자 한다.

Figure 1: Vero의 성능 및 학습 요약

Figure 1 — Vero의 성능 및 학습 요약

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing
현재글 : [논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning
다음글 [논문리뷰] Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw