[논문리뷰] WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

2026년 6월 11일수정: 2026년 6월 11일

링크: 논문 PDF로 바로 열기

본 논문은 로보틱 매니퓰레이션(Robotic Manipulation)을 위한 월드 모델(World Model)인 WEAVER를 제안하며, 기존 모델 대비 추론 속도와 성능을 대폭 개선한다.

메타데이터

저자: Arnav Kumar Jain, Yilin Wu, Jesse Farebrother, Gokul Swamy, Andrea Bajcsy

1. Key Terms & Definitions (핵심 용어 및 정의)

World Model: 로봇이 환경과의 상호작용을 예측하고 계획을 세우기 위해 환경의 Dynamics를 학습하는 시뮬레이션 모델을 지칭함.
Autoregressive Inference: 토큰이나 상태 값을 이전 값에 의존하여 순차적으로 생성하는 추론 방식을 의미함.
Robotic Manipulation: 로봇이 물체를 조작하거나 특정 작업을 수행하는 로봇 공학의 하위 분야임.
Latency: 특정 작업이나 예측을 완료하기까지 걸리는 시간으로, 로봇의 실시간 제어에서 중요한 지표임.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 월드 모델들이 복잡한 매니퓰레이션 태스크를 수행할 때 겪는 High Latency와 Context Length의 제한 문제를 해결하고자 한다. 기존의 Autoregressive 기반 월드 모델들은 매 스텝마다 모든 시퀀스를 연산해야 하므로, 실시간 제어가 필요한 로봇 환경에서 추론 속도가 현저히 떨어진다는 한계가 있다. 또한, 긴 작업 흐름을 예측할 때 메모리 효율성이 낮아져 결과적으로 Long-horizon 태스크 처리에 어려움을 겪는다. 저자들은 이러한 성능 병목 현상을 극복하여 더 빠르고 정확하게 긴 시퀀스를 예측할 수 있는 효율적인 아키텍처가 필요함을 강조한다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

WEAVER는 기존 모델의 병목을 해결하기 위해 최적화된 Transformer 기반 아키텍처를 채택하고, 추론 효율성을 극대화하는 Progressive Autoregressive Inference 전략을 도입한다 [Figure 1]. 이 방법론은 모델이 필요한 상태 정보만을 선택적으로 업데이트하여 전체적인 Throughput을 향상시키며, 복잡한 물리 상호작용을 더 긴 시간 동안 정밀하게 예측하도록 설계되었다. 실험 결과, WEAVER는 기존 SOTA(State-of-the-art) 모델 대비 Manipulation Success Rate에서 약 15% 이상의 성능 향상을 보였다 [Figure 2]. 특히, 실시간 추론 지표인 Latency 측면에서 기존 모델보다 2배 이상 빠른 속도를 기록하여, 복잡한 환경에서의 실시간성 확보 가능성을 입증하였다. 정량적 분석 결과, WEAVER는 매우 긴 호흡의 태스크 수행 시에도 이전 모델들보다 안정적인 성능을 유지하며, 데이터 효율성(Data Efficiency) 측면에서도 탁월한 성능을 발휘한다.

Figure 1: WEAVER 모델 아키텍처

Figure 1 — WEAVER 모델 아키텍처

Figure 2: 주요 성능 비교 그래프

Figure 2 — 주요 성능 비교 그래프

4. Conclusion & Impact (결론 및 시사점)

본 논문은 로보틱 매니퓰레이션의 효율적인 제어를 위한 월드 모델로서 WEAVER의 강력한 성능과 확장성을 입증하였다. 이 연구는 기존의 고비용 연산 문제를 해결함으로써 로봇이 더욱 복잡하고 긴 작업을 실시간으로 수행할 수 있는 기반 기술을 제시한다. 결과적으로 WEAVER는 차세대 로봇 지능 시스템의 실용성을 높이는 데 핵심적인 역할을 할 것으로 기대된다. 향후 연구에서는 더욱 다양한 환경에서의 일반화 성능을 개선하는 방향으로 발전할 수 있을 것이다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning
현재글 : [논문리뷰] WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation
다음글 [논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces