[논문리뷰] World Value Models for Robotic Manipulation

2026년 6월 23일수정: 2026년 6월 23일

링크: 논문 PDF로 바로 열기

저자: Zhihao Wang, Jianxiong Li, Yu Cui, Yuan Gao, Xianyuan Zhan, Junzhi Yu, Xiao Ma

## 1. Key Terms & Definitions (핵심 용어 및 정의)

WVM (World Value Model): 사전 학습된 비디오 월드 모델의 spatiotemporal priors를 활용하여 로봇 작업의 성공 가능성을 정밀하게 예측하는 범용 가치 모델입니다.
Suboptimal-Value-Bench: 800개의 suboptimal trajectories와 인적 주석(human-labeled)을 포함하여 hesitation과 retry와 같은 정체 상황을 평가하기 위해 제안된 새로운 벤치마크입니다.
VOC (Value-Order Correlation): 가치 모델이 작업 진행 상황을 올바르게 인식하고 있는지 측정하는 지표로, 성공적인 상태가 더 높은 값을 가지는지 평가합니다.
Flow Matching: 가치 함수를 분포 기반의 chunk 형태로 학습시키기 위해 도입된 기법으로, scalar 기반 supervision의 한계를 극복하고 풍부한 학습 신호를 제공합니다.
MoT (Mixture-of-Transformers): 비디오 생성 스트림과 가치 예측 스트림을 결합하되, 표현 간의 간섭을 최소화하기 위해 제안된 아키텍처 결합 방식입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 연구는 기존 로봇 가치 모델이 정적인 이미지 기반의 VLM 백본에 의존하여 장기적인 시간적 맥락과 미래 결과를 이해하는 데 한계가 있다는 문제점에서 출발합니다. 기존의 scalar 기반 가치 회귀는 복잡하고 혼합된 품질의 데이터에서 학습 효율이 낮으며, 특히 로봇 작업 중 발생하는 hesitation이나 retry와 같은 suboptimal segment를 구분하는 능력이 부족합니다. 이러한 현상은 복잡한 로봇 조작 데이터의 품질 필터링이나 정책 학습을 저해하는 요인이 됩니다. 따라서 본 논문은 월드 모델이 내재한 미래 예측 및 시간적 이해 능력을 가치 평가에 접목하여 더욱 정확하고 일반화 가능한 로봇 가치 모델을 구축하고자 합니다.

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 연구에서 제안하는 WVM은 사전 학습된 비디오 DiT를 기반으로 비디오 스트림과 가치 스트림을 MoT로 결합하고, Flow Matching을 사용하여 가치를 distributional chunk 형태로 학습합니다. 특히, 학습 과정에서 Prefix randomization을 통해 시간적 맥락을 유지하면서도 모델이 단순히 앞선 정보에 과도하게 의존하는 shortcut을 방지합니다. 또한, 다양한 suboptimal 상황을 포함하는 Suboptimal-Value-Bench에서 평가를 진행하여 모델의 강건성을 검증하였습니다. 실험 결과, WVM은 Hesitation-RMSE에서 기존 베이스라인 모델들의 평균인 0.14 대비 0.05로 획기적인 성능 향상을 보였으며, Retry-VOC 지표에서도 0.78의 점수를 기록하여 0.62인 베이스라인 대비 우수한 성능을 입증하였습니다 [Table 1], [Table 2]. 또한, expert demonstration 데이터셋인 Expert-VOC에서도 평균 0.95를 기록하며 최상위 성능을 달성하였습니다 [Table 3].

Table 1: Hesitation-RMSE 평가 지표에서 WVM의 압도적 성능 우위를 보여주는 주요 결과 테이블

Table 1 — Hesitation-RMSE 평가 지표에서 WVM의 압도적 성능 우위를 보여주는 주요 결과 테이블

Table 2: Retry-VOC 평가에서 WVM의 높은 식별 성능을 증명하는 테이블

Table 2 — Retry-VOC 평가에서 WVM의 높은 식별 성능을 증명하는 테이블

Table 3: 전문가 데이터셋(Expert-VOC)에서의 성능을 보여주는 비교 테이블

Table 3 — 전문가 데이터셋(Expert-VOC)에서의 성능을 보여주는 비교 테이블

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 월드 모델의 시간적 사전 지식을 가치 추정에 활용하는 새로운 패러다임인 WVM을 제시하여 로봇 학습의 정밀도를 개선하였습니다. 특히 suboptimal 데이터를 식별하는 능력을 강화함으로써 실세계 데이터 활용도를 극대화하고 정책 학습의 성능을 크게 향상시켰습니다. 본 연구에서 제안된 Suboptimal-Value-Bench는 기존의 전문가 데이터 위주의 평가 방식에서 벗어나 실질적인 로봇 조작 문제 해결을 위한 필수적인 평가 프레임워크를 제공합니다. 이는 향후 로봇 조작 분야에서 대규모 혼합 품질 데이터의 효과적인 활용을 위한 기술적 토대가 될 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection
현재글 : [논문리뷰] World Value Models for Robotic Manipulation
다음글 [논문리뷰] Advancing WordArt-Oriented Scene Text Recognition: Datasets and Methods

[논문리뷰] World Value Models for Robotic Manipulation

댓글

관련 포스트

Review 의 다른글