[논문리뷰] ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

2026년 6월 18일수정: 2026년 6월 18일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Yuyang Zhang, Wenyao Zhang, Zekun Qi, He Zhang, Haitao Lin, Jingbo Zhang, Yao Mu, Xiaokang Yang, Wenjun Zeng, Xin Jin

1. Key Terms & Definitions (핵심 용어 및 정의)

WAM (World Action Model): 로봇 제어를 위해 비디오 생성이나 시각적 상상을 활용하여 미래 상태를 예측하고 이를 기반으로 행동을 결정하는 프레임워크입니다.
Image Editing: 주어진 시각적 관찰(Source Image)에 언어 지시(Language Instruction)를 반영하여 특정 대상이나 상태를 변환하는 생성 모델 기술입니다.
KV Cache: Transformer 모델의 Denoising 과정에서 생성되는 중간 상태로, ImageWAM에서는 이를 활용해 미래 전체 비디오를 생성하지 않고도 행동 예측을 위한 문맥(Context)을 확보합니다.
Action Flow Matching: 행동 예측을 위해 행동 확률 분포의 속도 필드를 학습하여 연속적인 행동 시퀀스(Action Chunk)를 생성하는 정교한 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

기존의 WAM은 미래 비디오 생성에 의존하여 로봇 행동을 추론하지만, 여기에는 세 가지 심각한 한계가 존재합니다. 우선, 다수의 프레임에 대한 시공간 토큰을 처리해야 하므로 Inference 비용이 극도로 높습니다. 또한, 모델 용량이 행동과 무관한 배경이나 미세한 시간적 세부사항을 생성하는 데 낭비되며, 장기적인 예측 오류가 행동 예측의 정확도를 떨어뜨립니다 [Figure 1]. 저자들은 "과연 행동 모델이 정교한 비디오 생성이 필요한가?"라는 질문을 던지며, 복잡한 비디오 생성 대신 목적 지향적인 Image Editing을 통한 효율적인 대안을 제시합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 사전 학습된 이미지 편집 모델을 로봇 행동 예측의 백본으로 재활용하는 ImageWAM을 제안합니다. ImageWAM은 미래의 완전한 비디오를 생성하는 대신, 편집 과정에서 발생하는 중간 KV Cache를 추출하여 이를 행동 전문가(Action Expert)의 조건부 입력으로 사용합니다 [Figure 2]. 이 방법은 편집 모델이 학습한 '지시어에 따른 시각적 변화 예측' 능력을 로봇의 행동 제어로 전이하며, 최종적인 편집 결과물을 렌더링하지 않으므로 매우 효율적입니다. 실험 결과, ImageWAM은 다양한 벤치마크에서 기존의 강력한 VLA 및 WAM 모델들을 능가하는 성능을 보였습니다. 정량적으로 RoboTwin 2.0에서 93.38%의 높은 성공률을 기록했으며, 기존 Video-based WAM 대비 FLOPs를 1/6 수준으로, Latency를 1/4 수준으로 대폭 절감하는 성과를 거두었습니다 [Table 5].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 로봇 행동 제어를 위해 반드시 비디오를 생성해야 한다는 기존의 통념을 깨고, Image Editing 모델이 훨씬 더 효율적인 대안이 될 수 있음을 증명했습니다. ImageWAM은 행동과 관련 없는 시각 정보를 배제하고, 과업 수행에 핵심적인 시각적 변화 정보만을 Cache 형태로 추출하여 처리함으로써 성능과 효율성을 동시에 확보했습니다. 이 접근 방식은 실시간 로봇 제어 시스템의 컴퓨팅 부담을 획기적으로 줄여줄 수 있으며, 향후 로봇 공학에서 생성 모델의 활용 범위를 넓히는 데 중대한 시사점을 제공합니다.

Part 2: 중요 Figure 정보

Figure 1: 기존 비디오 기반 WAM과 ImageWAM 비교

Figure 1 — 기존 비디오 기반 WAM과 ImageWAM 비교

Figure 2: ImageWAM 전체 파이프라인

Figure 2 — ImageWAM 전체 파이프라인

Figure 5: 비디오 생성 아티팩트와 ImageWAM의 비교

Figure 5 — 비디오 생성 아티팩트와 ImageWAM의 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
현재글 : [논문리뷰] ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?
다음글 [논문리뷰] JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines