[논문리뷰] MolmoAct2: Action Reasoning Models for Real-world Deployment
링크: 논문 PDF로 바로 열기
메타데이터
저자: Haoquan Fang, Jiafei Duan, et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- Molmo2-ER: 공간적(Spatial) 및 embodied reasoning 능력에 특화된 Vision-Language Model(VLM) 백본으로, Molmo2를 기반으로 3.3M개의 embodied corpus를 통해 학습됨.
- OpenFAST Tokenizer: 연속적인 로봇 제어 신호(Continuous Action)를 압축하여 2048개의 discrete action 토큰으로 변환하는 오픈 소스 토크나이저.
- MolmoAct2-Think: 로봇의 궤적 내 temporal redundancy를 활용하여, 변화가 있는 영역에 대해서만 depth 토큰을 재예측하는 Adaptive Depth reasoning 모델.
- Flow Matching: 노이즈가 섞인 액션 궤적을 목표 액션으로 복원(Denoising)하는 데 사용되는 생성 모델링 기법으로, MolmoAct2의 continuous action 생성에 활용됨.
- KV-cache Conditioning: VLM 백본의 layer별 Key-Value(KV) 캐시를 action expert의 cross-attention 입력으로 사용하여 시각-언어 문맥을 제어에 활용하는 구조.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 범용 로봇 제어(Generalist robot manipulation)를 위한 VLA 모델이 실질적인 실환경 배포(Real-world deployment) 요건을 충족하지 못하는 한계를 해결하고자 한다. 기존 frontier 모델들은 폐쇄형(Closed-weight)이거나 배포에 필요한 데이터와 학습 레시피가 공개되지 않아 학계의 재현과 확장이 어렵다. 또한, reasoning 기능을 갖춘 모델들은 추론 단계에서 지연 시간(Latency)이 과도하게 발생하여 closed-loop 실시간 제어에 부적합하다. 마지막으로, 기존 오픈형 모델들은 고가의 특정 하드웨어에 종속되어 범용성이 낮다. 이에 본 연구는 실환경 배포가 가능하고 성능이 뛰어나며 빠른 추론 속도를 갖춘 오픈 소스 액션 reasoning 모델 MolmoAct2를 제안한다 [Figure 1].
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 공간적 추론에 최적화된 Molmo2-ER을 백본으로 사용하며, flow matching 기반의 액션 expert를 VLM의 layer별 KV 캐시에 연결하는 새로운 아키텍처를 도입했다. 저자들은 720시간 분량의 MolmoAct2-BimanualYAM Dataset을 포함한 세 가지 새로운 오픈 데이터셋을 구축하여 학습 데이터의 품질과 다양성을 확보했다. 또한, MolmoAct2-Think를 통해 전체 scene이 아닌 변화된 영역의 depth만을 재예측하여 Geometric grounding 비용을 획기적으로 줄였다 [Figure 5]. 실험 결과, MolmoAct2는 7개의 시뮬레이션 및 실환경 벤치마크에서 기존 π0.5를 포함한 강한 baseline들을 능가했다. 특히 Molmo2-ER은 13개의 embodied-reasoning 벤치마크에서 GPT-5 및 Gemini Robotics ER-1.5보다 우수한 평균 63.8%의 성능을 달성했다 [Table 3]. 또한 MolmoAct2는 RoboEval 환경에서 궤적의 안정성과 효율성을 모두 개선하며 실질적인 배포 성능을 입증했다 [Figure 6].
4. Conclusion & Impact (결론 및 시사점)
본 연구는 학계와 산업계가 공동으로 활용할 수 있는 fully open 액션 reasoning 모델인 MolmoAct2 패밀리를 통해 로봇 학습 분야의 민주화를 도모한다. 제안된 모델은 높은 성능과 실환경 배포 가능성, 그리고 MolmoAct2-Think의 효율적인 추론 방식을 결합하여 로봇 Foundation Model의 실무 적용 가능성을 크게 높였다. 본 논문에서 공개한 모델 가중치, 학습 코드 및 대규모 오픈 데이터셋은 향후 로봇 조작 모델 연구의 표준 데이터셋 및 프레임워크로 기여할 것으로 기대된다.
Part 2: 중요 Figure 정보

Figure 1 — MolmoAct2 전체 아키텍처 개요

Figure 4 — 포스트 학습 액션 expert 구조

Figure 5 — MolmoAct2-Think의 Adaptive depth 예측
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Lance: Unified Multimodal Modeling by Multi-Task Synergy
- [논문리뷰] KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration
- [논문리뷰] PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution
- [논문리뷰] DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
- [논문리뷰] Steering Visual Generation in Unified Multimodal Models with Understanding Supervision
Review 의 다른글
- 이전글 [논문리뷰] Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation
- 현재글 : [논문리뷰] MolmoAct2: Action Reasoning Models for Real-world Deployment
- 다음글 [논문리뷰] Motion-Aware Caching for Efficient Autoregressive Video Generation
댓글