[논문리뷰] Light-WAM: Efficient World Action Models with State-Fusion Action Decoding
링크: 논문 PDF로 바로 열기
메타데이터
저자: Ziang Li, Dongzhou Cheng, Yibin Wang, Shiyue Wang, Xiaoyang Xu, Lingxuan Weng, Juan Wang, Jiaqi Wang
1. Key Terms & Definitions (핵심 용어 및 정의)
- WAM (World Action Models): 로봇 정책 학습 시 미래 비디오 예측(Future-video prediction)을 보조 과제로 결합하여 시각적 표현 학습의 효율을 높이는 프레임워크입니다.
- StateFusionActionExpert: 비디오 백본의 여러 계층에서 추출된 adapted state를 learned-query pooling 방식으로 융합하여, 생성적 추론 없이 단일 forward pass로 동작을 직접 예측하는 모듈입니다.
- Learned-query pooling: 비디오 토큰의 밀집 정보를 고정된 크기의 작업 관련 상태로 압축하기 위한 bottleneck 기법입니다.
- Latent-space downsampling: 미래 비디오 예측 과제 시 계산 복잡도를 줄이기 위해 시각적 잠재 공간(latent space)을 공간적으로 다운샘플링하여 학습 효율을 극대화하는 방식입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 대규모 생성적 아키텍처를 기반으로 하는 기존 WAM의 높은 학습 비용과 추론 Latency 문제를 해결하기 위해 Light-WAM을 제안합니다. 기존 WAM 연구들은 미래 비디오 예측을 통해 시각적 표현을 풍부하게 하지만, 실시간 로봇 제어(Closed-loop policy)에 적용하기에는 메모리 요구량과 연산 비용이 지나치게 높다는 한계가 있습니다. 특히, 실시간 추론 시 미래 비디오 생성이 필수적이지 않음에도 불구하고, 대형 생성 모델을 실행해야 하는 비효율성이 존재합니다. 따라서 본 연구는 미래 비디오 예측의 표현 학습 이점은 유지하되, 추론 단계에서 가벼운 동작 예측 인터페이스를 제공하는 효율적인 모델 구조를 지향합니다 [Figure 1].
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 Wan2.1-T2V-1.3B 비디오 백본을 동결(Freeze)한 뒤, LoRA와 희소(Sparse)한 WAM adapters를 통해 가볍게 최적화하는 Light-WAM 프레임워크를 제안합니다. 제안된 StateFusionActionExpert는 백본의 다계층(Multi-level) adapted states를 입력받아 learned-query pooling으로 핵심 정보만 추출하며, 이를 통해 추가적인 생성적 프로세스 없이도 동작을 직접 예측합니다. 학습 시에는 미래 비디오 예측을 2x2 spatial downsampling된 latent space에서 수행하여 연산 효율을 높이고, 추론 시에는 동작 예측 브랜치만 단독으로 작동하게 설계하였습니다. LIBERO 벤치마크에서 97.2%의 성공률을 기록하며 embodied pretraining 없이도 강력한 성능을 입증하였고, RoboTwin 2.0 50개 과제에서도 76.4%의 성공률로 실용적인 성능을 보여주었습니다 [Table 1, Table 2]. 특히, 기존 WAM인 Fast-WAM 대비 학습 파라미터는 6.02B에서 0.44B로 13.7배 이상 감소시켰으며, 추론 시 72.03ms의 짧은 Latency와 4.1GiB의 낮은 Peak GPU Memory를 달성하여 우수한 효율성을 확보했습니다 [Table 3, Table 4].
4. Conclusion & Impact (결론 및 시사점)
본 논문은 효율적인 비디오 백본 최적화와 StateFusionActionExpert를 결합하여 WAM의 학습 및 추론 파이프라인을 획기적으로 개선했습니다. 이 연구는 고가의 생성적 모델 없이도 표현 학습의 장점을 온전히 취할 수 있음을 보여주며, 로봇 학습 분야에서 효율적인 정책 배포를 위한 핵심적인 기술적 가이드라인을 제시합니다. 향후 다양한 데이터 증강 및 견고성 향상 기법을 통해 Light-WAM의 일반화 성능을 더욱 강화할 수 있을 것으로 기대됩니다.
Part 2: 중요 Figure 정보

Figure 1 — Light-WAM 아키텍처 개요

Figure 3 — 미래 비디오 예측 시각화

Figure 4 — 실제 로봇 평가 환경
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Revisiting Articulated Parts Perception in Robot Manipulation
- [논문리뷰] Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity
- [논문리뷰] GEM: Generative Supervision Helps Embodied Intelligence
- [논문리뷰] Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps
- [논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning
Review 의 다른글
- 이전글 [논문리뷰] Liberating LLM Capabilities in Full-Duplex Speech Models
- 현재글 : [논문리뷰] Light-WAM: Efficient World Action Models with State-Fusion Action Decoding
- 다음글 [논문리뷰] OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation
댓글