#Interleaved planning

1개의 포스트

[논문리뷰] BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

본 논문은 복잡하고 장기적인 로봇 조작 작업을 위해 언어적 계획, 시각적 예측, 행동 생성 을 통합하는 통일된 프레임워크를 개발하는 것을 목표로 합니다. 기존 Vision-Language-Action (VLA) 모델들이 이러한 기능들을 분리된 모듈로 처리하여 최적의 성능을 달성하지 못하는 한계를 극복하고자 합니다.

#Review #Long-horizon manipulation #Embodied AI #Vision-Language-Action (VLA)#Interleaved planning #Visual forecasting #Residual Flow Guidance #Multimodal learning

2026년 2월 10일