[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process기존 VLA(Vision-Language-Action) 모델이 비전 생성 및 행동 예측을 분리하여 다루거나 외부 전문가에 의존하는 한계를 극복하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Diffusion Models#Discrete Denoising#Multimodal Learning#Robotics#Embodied AI#Joint Generation#Action Prediction2025년 11월 9일댓글 수 로딩 중