#Interruption

2개의 포스트

[논문리뷰] VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

기존 VLM 기반 로봇 시스템의 고정적이고 비동시적인 상호작용 패러다임이 유연한 인간-로봇 협력을 저해하는 문제를 해결하는 것을 목표로 합니다. 로봇이 인간처럼 동시에 보고, 듣고, 말하고, 행동하며 실시간 사용자 개입에 동적으로 반응할 수 있는 프레임워크를 구축하고자 합니다.

#Review #Embodied AI #Human-Robot Interaction #Vision-Language Models #Concurrency #Interruption #Robotics Control #Dual-Model Architecture #Special Tokens

2025년 10월 28일

[논문리뷰] SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

현재 대규모 언어 모델(LLMs) 및 음성 언어 모델(SLMs)이 사용자의 발화가 끝난 후에야 추론 및 행동을 시작하여 발생하는 높은 응답 지연 시간 문제를 해결하는 것이 목표입니다.

#Review #Spoken Language Models #Real-time Interaction #Thinking While Listening #Chain-of-Thought #Interruption #Tool Calling #Streaming ASR

2025년 10월 9일