[논문리뷰] LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

2026년 6월 15일수정: 2026년 6월 15일

링크: 논문 PDF로 바로 열기

저자: Jialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu

1. Key Terms & Definitions (핵심 용어 및 정의)

LaWM (Latent World Model): 사전 학습된 비전 모델의 latent 공간에서 latent action을 기반으로 미래의 관측 특징(latent visual subgoal)을 예측하는 모델입니다.
LaWAM (Latent World Action Model): LaWM을 통해 예측된 latent visual subgoal을 조건부 입력으로 사용하여, Dynamics-aware한 동작(Action chunk)을 생성하는 로봇 제어 프레임워크입니다.
Latent Action: 영상 데이터의 전환(transition)으로부터 비전 인코더의 latent 공간 내에서 학습된, 행동을 구체화하는 표현입니다.
Action Chunking: 고정된 시간적 범위(horizon $\tau$) 동안의 일련의 동작을 하나의 단위로 처리하여 추론 효율성과 성능을 높이는 방식입니다.
Knowledge Insulation (KI): 정책 학습 과정에서 사전 학습된 LaWM의 동역학 지식이 과도하게 수정되지 않도록 기울기(gradient) 흐름을 제한하는 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 Vision-Language-Action models (VLAs)가 갖는 미래 예측 능력의 부재와, World-Action Models (WAMs)가 겪는 높은 추론 비용 문제를 해결하기 위해 제안되었습니다 [Figure 1]. 기존 VLAs는 현재의 문맥에만 의존하여 행동을 결정하므로 로봇의 행동이 장면에 미칠 영향을 명시적으로 모델링하지 못합니다. 반면, 기존 Pixel-space WAMs는 고해상도 비디오나 이미지를 생성함으로써 막대한 연산 자원을 소모하고, 실시간 제어 환경에서 높은 Latency를 발생시킨다는 한계가 있습니다. 저자들은 픽셀 수준의 재구성이 아닌, 효과적인 동작 수행을 위해 필요한 핵심 동역학 정보만을 압축된 latent 공간에서 예측하는 새로운 방식을 제안합니다.

Figure 1: Latency와 성공률 비교

Figure 1 — Latency와 성공률 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Latent World Model (LaWM)을 기반으로 한 2단계 사전 학습 파이프라인을 제안합니다 [Figure 2]. 첫 번째 단계에서는 영상 전환 데이터로부터 Latent Inverse Dynamics Encoder를 통해 Latent Action을 추출하고, 이를 디코더가 미래의 관측 특징으로 변환하도록 학습시킵니다. 두 번째 단계에서는 정책 모델이 Latent Action을 먼저 예측하면, LaWM이 이를 즉시 Latent Visual Subgoal로 변환하여 Alternate-DiT Action Expert에 전달하는 구조를 취합니다. 이 방식을 통해 모델은 복잡한 픽셀 생성 과정 없이도 동역학을 고려한 제어가 가능합니다 [Figure 3]. LIBERO 벤치마크에서 98.6%의 성공률(Success Rate)을 기록하며 최첨단 성능을 달성하였고, 기존 Pixel-space WAMs 대비 최대 24배 낮은 Latency(187ms)를 달성하였습니다 [Table 1]. 또한, RoboTwin 벤치마크 및 실제 로봇 조작 환경에서도 높은 안정성을 입증하였습니다 [Figure 4, Table 2].

Figure 2: LaWAM 전체 아키텍처

Figure 2 — LaWAM 전체 아키텍처

Figure 3: Subgoal 기반 동작 실행

Figure 3 — Subgoal 기반 동작 실행

4. Conclusion & Impact (결론 및 시사점)

본 연구는 픽셀 재구성의 부담 없이 예측 동역학을 로봇 정책에 통합하는 효율적인 LaWAM 프레임워크를 성공적으로 구축하였습니다. 이는 고비용의 비디오 생성 없이도 압축된 latent 인터페이스를 통해 지능적인 제어가 가능함을 보여주며, 향후 실시간성을 중시하는 로봇 공학 분야의 모델 설계에 중요한 방향성을 제시합니다. 본 방법론은 하드웨어 제약이 있는 환경에서도 동역학을 고려한 고성능 로봇 정책을 구현할 수 있는 실용적인 토대를 마련하였다는 점에서 높은 학술적, 산업적 가치를 가집니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence
현재글 : [논문리뷰] LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies
다음글 [논문리뷰] Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale