[논문리뷰] In-Context World Modeling for Robotic Control

2026년 6월 25일수정: 2026년 6월 25일

링크: 논문 PDF로 바로 열기

저자: Siyin Wang, Junhao Shi, Senyu Fei, Zhaoyang Fu, Li Ji, Jingjing Gong, Xipeng Qiu

## 1. Key Terms & Definitions (핵심 용어 및 정의)

VLA (Vision-Language-Action) Models: 시각적 관측치와 자연어 명령을 입력받아 로봇의 행동(action)을 예측하는 end-to-end 모델입니다.
ICWM (In-Context World Modeling): 사전에 수집한 태스크 무관(task-agnostic) 상호작용 클립을 컨텍스트로 활용하여 시스템의 물리적 설정(config)을 추론하는 프레임워크입니다.
System Identification: 로봇 시스템의 고유한 물리적 환경 변수(예: 카메라 시점, 로봇의 morphology)를 식별하여 동역학적 특성을 파악하는 과정입니다.
Task-Agnostic Exploration: 특정 목표 수행 없이 무작위적인 움직임을 통해 로봇의 물리적 대응 관계를 탐색하는 초기 보정 단계입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 연구는 기존 VLA 모델들이 훈련 단계의 고정된 환경 컨텍스트에 지나치게 의존하여, 카메라 시점이나 로봇 형태가 변경되는 환경에서의 일반화(generalization) 실패 문제를 해결하고자 합니다. 기존 모델은 시스템 설정값(ψ)을 모델 파라미터 내에 고정된 상수로 암묵적으로 취급하기 때문에, 새로운 환경에 배포될 때마다 데이터 집약적인 파인튜닝이 강제되는 한계가 있습니다. 이러한 문제를 해결하기 위해, 저자들은 테스트 타임에 시스템 설정을 능동적으로 추론하여 보정할 수 있는 메커니즘을 제안합니다 [Figure 1]. 이는 단순한 행동 명세(behavior specification) 수준의 In-Context Learning을 넘어, 시스템이 어떻게 작동하는지를 이해하는 World Modeling 관점의 접근이 필요함을 시사합니다.

Figure 1: 제안하는 ICWM의 핵심 개념을 인간의 탐색 방식과 대비하여 보여주는 다이어그램

Figure 1 — 제안하는 ICWM의 핵심 개념을 인간의 탐색 방식과 대비하여 보여주는 다이어그램

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 연구는 모델 파라미터 업데이트 없이 테스트 타임에 환경 설정을 추론하는 ICWM 프레임워크를 제안합니다. ICWM은 태스크 실행 전 무작위 탐색을 통해 수집된 시각적 전환 데이터(visual transitions)를 컨텍스트 윈도우에 전처리(prepend)하여, 모델이 현재 환경의 World Dynamics를 암묵적으로 학습하게 합니다. [Figure 2]에 제시된 바와 같이, 모델은 탐색 데이터로부터 얻은 히든 상태를 통해 제어 매핑을 재조정하며, 별도의 파라미터 업데이트 없이도 새로운 카메라 시점에 적응합니다. 주요 정량적 성과는 다음과 같습니다:

LIBERO 벤치마크 실험 결과, ICWM은 unseen OOD 시점에서 기존 Multi-View BC 대비 13.0% 향상된 성공률을 기록하였습니다.
특히 LIBERO-Long과 같은 장기 호라이즌 태스크에서 베이스라인 모델인 MV 대비 26.3% 높은 성공률을 보여, 환경 변동에 따른 오차 누적 방지 능력을 입증했습니다 [Figure 4].
실제 UR5e 로봇 플랫폼을 이용한 실험에서도, 카메라 시점 변화 및 형태적 변화(morphological changes) 상황에서 일관되게 높은 성능 우위를 점했습니다 [Figure 5].

Figure 2: 훈련 및 추론 단계의 전체 파이프라인과 데이터 흐름을 상세히 묘사

Figure 2 — 훈련 및 추론 단계의 전체 파이프라인과 데이터 흐름을 상세히 묘사

Figure 4: 주요 벤치마크에서의 정량적 성능 비교를 보여주는 핵심 결과 그래프

Figure 4 — 주요 벤치마크에서의 정량적 성능 비교를 보여주는 핵심 결과 그래프

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 VLA 모델이 가지는 시스템 고정화 문제를 시스템 식별 문제로 재정의하여 In-Context World Modeling이라는 새로운 해결책을 제시하였습니다. 제안된 프레임워크는 사전 학습된 모델을 변경하지 않고도 테스트 타임의 자가 탐색만으로 환경 적응력을 극대화할 수 있음을 증명하였습니다. 본 연구는 로봇 학습 분야에서 파인튜닝 의존성을 줄이고 범용적인 로봇 에이전트를 구축하는 데 핵심적인 기여를 할 것으로 기대됩니다. 또한 시각적 환경 변수뿐만 아니라 기구학적 변수 변화에도 강건한 성능을 보임으로써, 실제 산업 현장에서의 로봇 배포 효율성을 획기적으로 개선할 수 있는 기술적 토대를 마련하였습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] How Post-Training Shapes Biological Reasoning Models
현재글 : [논문리뷰] In-Context World Modeling for Robotic Control
다음글 [논문리뷰] JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

[논문리뷰] In-Context World Modeling for Robotic Control

댓글

관련 포스트

Review 의 다른글