[논문리뷰] Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring본 논문은 범용 VLA 모델이 실환경 배포 시 겪는 실행 실패 문제를 실시간으로 감지하기 위한 효율적인 방법을 모색합니다. 기존의 방법론들은 고가의 단계별 실패 주석이 필요하거나, 액션 재샘플링 및 외부 VLM 모델 사용에 따른 높은 계산 오버헤드로 인해 실시간 배포가 어렵다는 한계가 있습니다.#Review#Vision-Language-Action (VLA)#Failure Detection#Coarsely Supervised Learning#Contrastive Learning#Conformal Prediction#Embodied AI2026년 5월 31일댓글 수 로딩 중
[논문리뷰] IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation본 논문은 프레임 단위로만 조건을 부여하는 기존 VLA 모델들이 부분 관측성(Partial Observability) 하에서 발생하는 짧은 기간의 의도 모호성 문제를 해결하지 못한다는 점을 지적합니다.#Review#Vision-Language-Action (VLA)#Robot Manipulation#AliasBench#Short-Horizon Intent#Imitation Learning#Inter-chunk Consistency#Partial Observability2026년 5월 14일댓글 수 로딩 중
[논문리뷰] FrameSkip: Learning from Fewer but More Informative Frames in VLA Training본 논문은 기존 VLA 모델 학습 과정에서 무분별하게 모든 프레임을 동일한 비중으로 사용하는 'Temporal supervision imbalance' 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Robot Manipulation#Frame Selection#Temporal Supervision#Data Curation#Policy Learning#Embodied AI2026년 5월 13일댓글 수 로딩 중
[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation기존 VLA 모델들은 hierarchical 구조나 autoregressive 패러다임에 의존함으로써 발생하는 아키텍처 오버헤드, 장기적 시간 일관성 결여, 그리고 환경 역학(environment dynamics)을 파악하는 명시적 메커니즘 부족이라는 한계에 직면해 있습니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Multi-modal Generation#Robotic Manipulation#Action Chunking#World Model#Hybrid Attention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Learning Native Continuation for Action Chunking Flow Policies본 논문은 Vision-Language-Action (VLA) 모델에서 액션 청킹(action chunking) 시 발생하는 청크 경계의 불연속성 문제를 해결하고자 합니다.#Review#Action Chunking#Flow-based Policies#Trajectory Continuation#Robotics#Vision-Language-Action (VLA)#Denoising Dynamics#Schedule-shaped Guidance#Real-time Control2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Real-Time Robotics#Diffusion Transformer#Flow Matching#Asynchronous Execution#Robot Manipulation#Pre-training#Catastrophic Forgetting2026년 2월 15일댓글 수 로딩 중
[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.#Review#Robotic Manipulation#Vision-Language-Action (VLA)#Foundation Models#Action Manifold Learning#Diffusion Transformers#Data Curation#Embodied AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] RISE: Self-Improving Robot Policy with Compositional World Model본 논문은 VLA(Vision-Language-Action) 모델 이 접촉이 많고 역동적인 로봇 조작 작업에서 여전히 취약하며, 물리적 환경에서의 온-정책(on-policy) 강화 학습이 하드웨어 비용, 느린 상호작용, 수동 리셋 등의 문제로 인해 확장이 어렵다는 한계를 해결하고자 합니다.#Review#Robot Learning#Reinforcement Learning#World Models#Compositional Models#Robotic Manipulation#Self-Improving#Vision-Language-Action (VLA)2026년 2월 12일댓글 수 로딩 중
[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.#Review#Vision-Language-Action (VLA)#Latent World Model#JEPA#Pretraining#Robot Learning#Generalization#Robustness#Human Videos2026년 2월 10일댓글 수 로딩 중
[논문리뷰] BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation본 논문은 복잡하고 장기적인 로봇 조작 작업을 위해 언어적 계획, 시각적 예측, 행동 생성 을 통합하는 통일된 프레임워크를 개발하는 것을 목표로 합니다. 기존 Vision-Language-Action (VLA) 모델들이 이러한 기능들을 분리된 모듈로 처리하여 최적의 성능을 달성하지 못하는 한계를 극복하고자 합니다.#Review#Long-horizon manipulation#Embodied AI#Vision-Language-Action (VLA)#Interleaved planning#Visual forecasting#Residual Flow Guidance#Multimodal learning2026년 2월 10일댓글 수 로딩 중
[논문리뷰] TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers표준 Vision-Language-Action (VLA) 모델이 로봇 제어를 위해 VLM 백본을 미세 조정할 때 발생하는 '파멸적 망각(catastrophic forgetting)' 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action (VLA)#Embodied AI#Robotics#Catastrophic Forgetting#Asymmetric Mixture-of-Transformers (AsyMoT)#Generalist VLM#Specialist VLM#Flow-Matching2026년 1월 25일댓글 수 로딩 중
[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.#Review#Robot Manipulation#Video Generation Models#Vision-Language-Action (VLA)#Diffusion Transformer#Generalization#Action Prediction#Visual Imagination2025년 12월 8일댓글 수 로딩 중
[논문리뷰] SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead본 논문은 대규모 VLA 모델의 높은 추론 지연 시간과 메모리 사용량 문제를 해결하고, 경량 VLA 모델의 제한된 시공간 추론 능력을 극복하는 것을 목표로 합니다. 특히, 컴팩트한 VLA 모델에 4D 시공간 정보 를 통합하여 효율성을 유지하면서도 강력한 장면 이해 및 액션 계획 능력을 부여하고자 합니다.#Review#Vision-Language-Action (VLA)#Lightweight Models#Spatiotemporal Dynamics#4D Features#Masked Autoencoding#Robotics#Edge AI2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action본 논문은 Vision-Language-Action (VLA) 모델에서 발생하는 '액션 퇴화(action degeneration)' 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Embodied AI#Action Degeneration#Data Pruning#Knowledge Distillation#Multi-modal Reasoning#Robot Learning#VLA Score2025년 11월 30일댓글 수 로딩 중
[논문리뷰] MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots본 논문은 사족 보행 로봇의 자연어 명령을 연속적인 제어로 연결하는 데 따르는 근본적인 과제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Mobile Robotics#Quadruped Robots#Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Embodied AI#Multimodal Perception2025년 11월 26일댓글 수 로딩 중
[논문리뷰] WMPO: World Model-based Policy Optimization for Vision-Language-Action ModelsVLA 모델이 로봇 조작에 큰 잠재력을 보이지만, 전문가 데모에 의존하여 실패로부터 학습하고 스스로 수정하는 능력이 제한적이라는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Reinforcement Learning (RL)#Model-based RL#World Models#Policy Optimization#Robotics#Sample Efficiency#Self-correction2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process기존 VLA(Vision-Language-Action) 모델이 비전 생성 및 행동 예측을 분리하여 다루거나 외부 전문가에 의존하는 한계를 극복하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Diffusion Models#Discrete Denoising#Multimodal Learning#Robotics#Embodied AI#Joint Generation#Action Prediction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies본 논문은 기존 Vision-Language-Action (VLA) 모델 디코더의 한계(고정된 순서의 autoregressive 생성 또는 continuous diffusion /flow matching 헤드의 백본 분리)를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Action Decoding#Transformer#Robot Control#Masked Modeling#Adaptive Decoding#Reinforcement Learning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation본 논문은 로봇이 실제 환경에서 효과적으로 작동하기 위해 멀티모달 추론과 정확한 동작 생성을 통합하는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Instruction Tuning#Multimodal Reasoning#Robotic Manipulation#Catastrophic Forgetting#Mixture-of-Experts (MoE)#Flow Matching2025년 8월 5일댓글 수 로딩 중
[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#3D Spatial Reasoning#Embodied AI#Foundation Models#Multimodal Fusion#Robot Manipulation#Modality Transferability#Action Grounding2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning본 연구는 Vision-Language-Action (VLA) 모델 스케일링의 두 가지 주요 과제, 즉 사전 훈련된 VLA 모델 가중치 활용을 통한 효율적인 스케일업과 실시간 제어를 위한 모델 용량 및 연산 효율성 균형을 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Mixture of Experts (MoE)#Robotic Manipulation#Expert Specialization#Decoupled Routing#Load Balancing#Transfer Learning2025년 10월 17일댓글 수 로딩 중
[논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy본 논문은 로봇이 지시를 이해하고 3D 공간에서 행동하는 데 필요한 본질적인 격차를 해소하여, 확장 가능하고 범용적인 지능을 갖춘 지시-추종 로봇을 개발하는 것을 목표로 합니다.#Review#Robotics#Vision-Language-Action (VLA)#Spatial Grounding#Generalist Policy#Multimodal Learning#Instruction Following#Simulation-to-Real#Diffusion Models2025년 10월 16일댓글 수 로딩 중