[논문리뷰] μ_0: A Scalable 3D Interaction-Trace World Model

2026년 6월 14일수정: 2026년 6월 14일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Seungjae Lee, Yoonkyo Jung, Jusuk Lee, Jonghun Shin, Amir Hossein Shahidzadeh, Yao-Chih Lee, H. Jin Kim, Jia-Bin Huang, Furong Huang

1. Key Terms & Definitions (핵심 용어 및 정의)

TraceExtract: 이질적인 비디오 데이터로부터 시맨틱 키포인트를 추출하고, 이를 3D 공간으로 리프팅하여 Hierarchical Language Caption과 결합된 학습 데이터를 생성하는 데이터 엔진입니다.
μ₀ (mu0): 픽셀이나 로봇 전용 액션 대신, 객체나 도구와 같은 상호작용 지점의 3D 궤적을 예측하는 Query-Conditioned Trace-space World Model입니다.
B-spline Control Points: 예측된 3D 궤적을 컴팩트하고 매끄럽게 표현하기 위한 파라미터로, 모델이 future trajectory를 생성할 때 사용하는 타겟 형태입니다.
Trace-Conditioned Action Expert: 학습 완료 후 고정된(frozen) μ₀ 모델의 특징을 활용하여 특정 로봇 Embodiment에 맞는 액션 청크(action chunks)를 생성하는 모듈입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 로봇 학습이 직면한 데이터 파라독스, 즉 '액션이 포함된 로봇 데이터의 희소성'과 '비디오 데이터의 높은 가용성' 사이의 간극을 해결하고자 합니다 [Figure 1]. 기존 연구들은 Pixel-space 생성을 통해 범용적인 시각적 Prior를 학습하려 했으나, 배경 생성 등에 과도한 모델 용량이 소모되고 조작에 필수적인 기하학적 정보가 부족한 한계가 있습니다. 또한, 직접적인 액션 예측 방식은 하드웨어 특이적인 레이블에 의존하여 확장성이 크게 제한됩니다. 저자들은 이러한 문제를 극복하기 위해 객체, 도구, 접점 등 상호작용의 핵심이 되는 3D Interaction-Trace를 예측하는 새로운 World Model을 제안합니다.

Figure 1: 데이터에서 3D 궤적 기반 동작 사전 구축 과정

Figure 1 — 데이터에서 3D 궤적 기반 동작 사전 구축 과정

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 TraceExtract를 통해 추출된 데이터를 기반으로, VLM Backbone과 Permutation-Equivariant Trace Expert를 결합한 μ₀ 모델을 제안합니다 [Figure 2, Figure 3]. 모델은 Semantic Flow Matching Objective를 통해 노이즈가 포함된 제어점(control points)을 매끄러운 3D 궤적으로 디노이징(denoising)합니다. 학습된 μ₀ 모델은 고정(frozen)되어 재사용 가능한 Motion Prior로 기능하며,下游의 Action Expert를 통해 다양한 로봇 Embodiment로 쉽게 전이됩니다.

실험 결과, μ₀는 기존 2D/3D Trace Prediction 방식 대비 우수한 성능을 입증했습니다 [Table 1]. 특히, 액션 레이블 없이 비디오 기반 사전 학습만 수행했음에도 불구하고, 로봇 제어 작업에서 액션 레이블을 사용한 VLA 모델인 π₀ 대비 우수한 성과를 보였습니다 [Table 2]. 구체적으로 RoboCasa365 시뮬레이션 환경에서 π₀보다 평균 성공률이 5.0% 높았으며, 실세계 UR3 조작 태스크에서도 91.7%의 높은 평균 성공률을 달성하여 기존 대비 성능 우위를 점했습니다 [Figure 6].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 3D Interaction-Trace가 Cross-embodiment 조작을 위한 확장 가능하고 전이 가능한 표현임을 성공적으로 증명했습니다. μ₀는 픽셀이나 특정 로봇 액션에 의존하지 않는 새로운 World Model 패러다임을 제시함으로써 로봇 학습의 데이터 효율성을 극대화하였습니다. 이러한 접근 방식은 범용 로봇 모델 구축에 있어 학계와 산업계 모두에 중요한 기술적 토대를 제공할 것으로 기대됩니다.

Figure 2: TraceExtract 데이터 엔진 개요

Figure 2 — TraceExtract 데이터 엔진 개요

Figure 3: μ₀ 모델 아키텍처 및 액션 인터페이스

Figure 3 — μ₀ 모델 아키텍처 및 액션 인터페이스

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] iMaC: Translating Actions into Motion and Contact Images for Embodied World Models
현재글 : [논문리뷰] μ_0: A Scalable 3D Interaction-Trace World Model
다음글 [논문리뷰] Artificial Intelligence Index Report 2026