[논문리뷰] VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting기존 VLM 기반 로봇 시스템의 고정적이고 비동시적인 상호작용 패러다임이 유연한 인간-로봇 협력을 저해하는 문제를 해결하는 것을 목표로 합니다. 로봇이 인간처럼 동시에 보고, 듣고, 말하고, 행동하며 실시간 사용자 개입에 동적으로 반응할 수 있는 프레임워크를 구축하고자 합니다.#Review#Embodied AI#Human-Robot Interaction#Vision-Language Models#Concurrency#Interruption#Robotics Control#Dual-Model Architecture#Special Tokens2025년 10월 28일댓글 수 로딩 중