[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

2026년 2월 15일수정: 2026년 2월 15일

링크: 논문 PDF로 바로 열기

저자: Xinyuan Chang, Feng Xiong, Mu Xu, Zhiheng Ma, Xing Wei, et al.

핵심 연구 목표

본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다. 특히, 기존 VLM의 3D 공간 추론 능력 한계를 극복하고, 데이터 처리 및 모델 아키텍처를 통합 최적화 하여 교차-환경 일반화 및 효율적이고 안정적인 액션 예측 을 가능하게 하는 VLA 파운데이션 모델(ABot-M0) 을 개발하는 것을 목표로 합니다.

핵심 방법론

이 연구는 6개의 공개 데이터셋을 통합하여 UniACT-dataset 을 구축했으며, 엔드-이펙터 프레임의 델타 액션 및 회전 벡터 를 사용하여 액션 표현을 표준화하고, Task-Uniform 샘플링 전략을 도입했습니다. 모델은 Qwen3-VL VLM 백본과 DiT(Diffusion Transformer) 액션 전문가로 구성되며, 액션 매니폴드 가설(Action Manifold Hypothesis)에 기반한 액션 매니폴드 학습(AML) 을 통해 노이즈 예측 대신 정제된 액션 시퀀스를 직접 예측 하도록 설계되었습니다. 또한, VGGT 및 Qwen-Image-Edit 와 같은 3D 모듈을 사용하여 VLM의 시맨틱 피처와 기하학적 사전 정보를 교차-어텐션 으로 융합하는 듀얼-스트림 아키텍처를 도입했습니다.

주요 결과

ABot-M0 은 LIBERO에서 98.6% , LIBERO-Plus(제로샷)에서 80.5% , RoboCasa GR1 Tabletop Tasks에서 58.3% , RoboTwin 2.0에서 80% 이상 의 평균 성공률을 달성하며 기존 SOTA 모델들을 뛰어넘었습니다. AML 은 기존 노이즈 예측 방식인 GR00T보다 LIBERO-Plus에서 1.7% 더 높은 성능을 보였고, 큰 액션 청크 크기에서 그 차이가 더욱 확대되었습니다. 3D 정보 주입 시, VGGT 피처를 활용한 교차-어텐션 이 성능을 일관되게 향상시켰으며, Qwen-Image-Edit의 두 합성 뷰 는 LIBERO에서 2.8% , LIBERO-Plus에서 2-4% 의 절대 성공률 향상을 가져왔습니다.

AI 실무자를 위한 시사점

본 연구는 공개된 자원과 체계적인 엔지니어링을 통해 고성능의 일반화된 임베디드 지능 이 가능하다는 것을 입증하여 독점 데이터 의존성을 줄이는 방향을 제시합니다. 액션 매니폴드 학습(AML) 패러다임은 고차원, 장기적, 숙련된 로봇 작업에서 효율적이고 안정적인 액션 예측 을 위한 핵심 기술이며, 학습 목표를 단순화하는 효과가 있습니다. 모듈형 듀얼-스트림 아키텍처 는 VLM의 시맨틱 이해와 3D 기하학적 추론을 유연하게 통합할 수 있는 청사진을 제공하며, UniACT-dataset 및 표준화된 데이터 파이프라인은 미래의 대규모 로봇 데이터 큐레이션 및 사전 훈련 을 위한 중요한 기반을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies
현재글 : [논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
다음글 [논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models