[논문리뷰] BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation본 논문은 복잡하고 장기적인 로봇 조작 작업을 위해 언어적 계획, 시각적 예측, 행동 생성 을 통합하는 통일된 프레임워크를 개발하는 것을 목표로 합니다. 기존 Vision-Language-Action (VLA) 모델들이 이러한 기능들을 분리된 모듈로 처리하여 최적의 성능을 달성하지 못하는 한계를 극복하고자 합니다.#Review#Long-horizon manipulation#Embodied AI#Vision-Language-Action (VLA)#Interleaved planning#Visual forecasting#Residual Flow Guidance#Multimodal learning2026년 2월 10일댓글 수 로딩 중