[논문리뷰] OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

2026년 6월 8일수정: 2026년 6월 8일

링크: 논문 PDF로 바로 열기

The full content of the article is in the first browse result, identified by.저자: Zehao Yu, Jiakun Zheng, Weiji Xie, et al.

1. Key Terms & Definitions

Loco-Manipulation: 로봇이 이동(locomotion)하면서 동시에 물체를 조작(manipulation)하는 복합적인 태스크를 지칭합니다. 휴머노이드 로봇이 일상 환경에서 다양한 작업을 수행하기 위해 필수적인 능력입니다.
Zero-Shot Deployment: 특정 태스크에 대해 추가적인 Real-World 데이터를 수집하거나 Fine-tuning 과정 없이, Simulation 환경에서 학습된 Policy를 실제 로봇에 직접 적용하여 수행하는 것을 의미합니다.
Domain Randomization: Simulation 환경에서 학습된 모델이 Real-World에 성공적으로 Transfer될 수 있도록, Simulation Scene의 시각적 및 물리적 속성(예: Texture, Lighting, Camera Extrinsics)을 무작위로 변경하여 데이터셋의 다양성을 확장하는 기법입니다.
Flow Matching: 생성 모델링을 위한 기술로, 본 논문에서는 High-Level Planner가 미래 Motion Sequence를 예측하는 데 사용됩니다. Gaussian Prior와 Target Action Chunk 사이의 선형 경로를 따라 Constant-Velocity Field를 학습합니다.
Hierarchical Visuomotor Policy: 시각적 관측(Visual Observations)을 기반으로 High-Level Planner가 Reference Motion Commands를 생성하고, Low-Level Controller가 이를 Joint Angles로 변환하여 로봇을 제어하는 계층적 구조의 Policy입니다.

2. Motivation & Problem Statement

본 논문은 휴머노이드 로봇의 Loco-Manipulation 태스크를 위한 대규모의 고품질 Demonstration Data 부족 문제를 해결하고자 합니다. 기존 Real-Robot Teleoperation 방식은 가장 높은 품질의 궤적(Trajectories)을 제공하지만, 전용 물리 공간, 시간 소모적인 Scene Reset, 그리고 하드웨어 손상 위험으로 인해 확장성(Scalability)이 낮다는 한계점을 가집니다. 특히, 태스크 실패 시 Real-Robot은 Operator의 수동 개입이 필요하여 비효율적입니다 [Figure 2, cite: 1]. Simulation은 이러한 Dilemma를 해결할 대안으로 제시되지만, 현실적인 물리적 속성을 가진 오브젝트 에셋 구축에 수동 작업이 많이 필요하다는 새로운 병목 현상이 존재합니다. 기존 연구들 또한 Simulation Data를 활용하려는 노력을 보였으나, 단순한 태스크에 국한되거나 데이터 획득 과정 자체가 Cost가 높다는 단점이 있습니다.

3. Method & Key Results

저자들은 휴머노이드 Loco-Manipulation을 위한 Simulation-Data-Driven Framework인 OASIS를 제안합니다 [Figure 3, cite: 1]. OASIS는 네 가지 주요 단계로 구성됩니다: 첫째, Real-World 이미지로부터 3D Generative Model을 사용하여 물리적 속성(Physical Properties)을 가진 사실적인 오브젝트 에셋을 자동으로 재구성합니다. 이때 Qwen3-VL과 같은 Vision-Language Model(VLM)을 활용하여 Physical Dimensions 및 Material Properties를 추정합니다. 둘째, 이 Assets를 기반으로 VR 기반 Teleoperation을 통해 Simulation에서 Demonstration Trajectories를 수집합니다. Real-Time Responsiveness를 위해 Lightweight Rendering 모드가 사용됩니다. 셋째, 수집된 궤적들은 Offline에서 Path-Tracing Rendering Mode를 사용하여 Textures, Lighting, Camera Extrinsics를 다양하게 무작위화(Randomization)하여 High-Fidelity의 시각적 증강(Visual Augmentation)을 거칩니다. 이 Data Decoupling을 통해 소량의 Teleoperation 시간으로 대규모의 시각적으로 다양한 Training Set을 생성할 수 있습니다. 넷째, 증강된 데이터로 Hierarchical Visuomotor Policy를 학습합니다. High-Level Planner는 Transformer-based Flow Matching Policy로 multimodal Observations(Text Instruction, Three-View Images, Robot Proprioception)로부터 미래 Reference Motion Commands를 예측하며, Low-Level Controller인 Teleopit이 이를 Joint Angles로 변환합니다 [Figure 3, cite: 1].

실험 결과, OASIS는 Real-Robot Teleoperation 대비 데이터 수집 효율성에서 최대 1.84배 빠른 Speedup을 달성했습니다 [Table 1, cite: 1]. 특히, 태스크 난이도가 높을수록 효율성 차이가 더욱 커졌습니다. Data Augmentation Ablation 연구에서는 모든 Randomization Factor(Texture, Lighting, Camera Extrinsics)를 적용했을 때 평균 Success Rate가 0.83으로 가장 높았으며, 특히 Lighting Randomization이 가장 큰 기여를 하는 것으로 나타났습니다 [Table 2, cite: 1]. Simulation 데이터로만 훈련된 Policy는 Real-Robot 데이터로만 훈련된 Policy와 유사하거나 더 높은 Real-Robot Zero-Shot Success Rate를 보였습니다 [Figure 5, cite: 1]. 예를 들어, 'Kneel and Wipe Under Table' 태스크에서는 Simulation Only Policy가 Real Only Policy보다 높은 Success Rate를 기록했습니다 [Figure 5, cite: 1]. 이는 Simulation Randomization이 제공하는 넓은 범위의 시각적 Variation이 Real-Robot 데이터가 포착하지 못하는 Robustness를 제공하기 때문입니다. 두 데이터 소스를 혼합했을 때 가장 높은 성능을 보여, Simulation Data와 Real-Robot Data의 상호보완적 가치를 입증했습니다 [Figure 5, cite: 1].

4. Conclusion & Impact

본 연구는 Simulation-Data-Driven Framework인 OASIS를 통해 휴머노이드 Loco-Manipulation을 위한 확장 가능하고 효율적인 데이터 수집 및 Policy 학습 방법을 제안합니다. OASIS는 Real-World 이미지로부터 생성된 3D Assets를 활용하여 Simulation Scene을 구축하고, VR 기반 Teleoperation과 Offline Photorealistic Rendering을 분리하여 각 Demonstration이 시각적으로 다양한 Training Samples로 확장되도록 합니다. 이 연구는 Unitree G1 휴머노이드 로봇에서 Real-Robot Teleoperation보다 최대 1.84배 빠른 데이터 수집 효율성을 입증했으며, OASIS 데이터로만 학습된 Policy가 Real-Robot에 Zero-Shot Transfer되어 Real-Robot 데이터로 학습된 Policy와 동등하거나 더 우수한 성능을 보여주었습니다. 이러한 결과는 현실적인 Asset Generation과 대규모 Visual Randomization이 결합된 High-Fidelity Simulation이 휴머노이드 Loco-Manipulation을 위한 Real-Robot Teleoperation의 실용적이고 확장 가능한 대안이 될 수 있음을 시사합니다. 이 연구는 휴머노이드 로봇이 복잡한 Real-World 환경에서 Generalizable한 능력을 갖추는 데 필요한 대규모 고품질 데이터를 효율적으로 확보하는 새로운 방향을 제시합니다.

Figure 1: OASIS 시스템 개요

Figure 1 — OASIS 시스템 개요

Figure 3: OASIS 프레임워크 상세 구조

Figure 3 — OASIS 프레임워크 상세 구조

Figure 5: 데이터 소스별 Real-World 성공률 비교

Figure 5 — 데이터 소스별 Real-World 성공률 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Light-WAM: Efficient World Action Models with State-Fusion Action Decoding
현재글 : [논문리뷰] OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation
다음글 [논문리뷰] OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning