[논문리뷰] RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models최근 VLA는 로봇 공학 분야에서 두드러진 성과를 보이며, MLLM의 시각 인지, 언어 이해 및 상식 지식을 활용하여 실제 시나리오에서 일반화 가능한 로봇 정책 학습의 기반을 제공합니다.#Review#Vision-Language-Action Models (VLAs)#Multimodal-Large-Language Models (MLLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Embodied Reasoning#Low-level Actions#FAST tokenization#Robotics2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue현재 VLA(Vision-Language-Action) 기반 로봇 이 모호한 지시를 처리하지 못하고 수동적으로 명령을 실행하는 한계를 해결하는 것이 목표입니다.#Review#Embodied AI#Human-Robot Interaction#Multi-turn Dialogue#Instruction Following#Vision-Language Models#Diffusion Models#Ambiguity Resolution#Low-level Actions2025년 9월 22일댓글 수 로딩 중