#Vision-Language-Action Models

61개의 포스트

[논문리뷰] Xiaomi-Robotics-1: Scaling Vision-Language-Action Models with over 100K Hours of Real-World Trajectories

본 논문은 대규모 데이터 학습을 통해 범용 로봇 정책을 구축하고자 하는 Scaling Laws의 가능성을 실현하는 데 초점을 맞춥니다.

#Review #Vision-Language-Action Models #Scaling Laws #Real-World Trajectories #Robot Foundation Models #Flow Matching #Auto-labeling #Cross-embodiment Learning

2026년 7월 19일

[논문리뷰] Dual Latent Memory in Vision-Language-Action Models for Robotic Manipulation

본 논문은 기존 VLA 모델들이 지닌 Markovian assumption으로 인한 temporal short-horizon bias를 해결하고자 합니다 .

#Review #Vision-Language-Action Models #Latent Memory #Robotic Manipulation #Long-horizon Tasks #Dual-scale Vault #Memory-augmented Reasoning

2026년 7월 8일

[논문리뷰] SIEVE: Structure-Aware Data Selection for Imitation Learning with VLA Models

본 논문은 대규모 로봇 데모 데이터셋에 존재하는 중복성, 노이즈, 불균일한 작업 커버리지 문제를 해결하기 위해 구조적 데이터 선택 프레임워크인 SIEVE를 제안한다 .

#Review #Vision-Language-Action Models #Imitation Learning #Data Selection #Primitive Discovery #Structural Exposure #Behavior Cloning

2026년 7월 7일

[논문리뷰] 3D HAMSTER: Bridging Planning and Control in Hierarchical Vision Language Action Models through 3D Trajectory Guidance

본 논문은 기존의 Hierarchical VLA 모델들이 직면한 2D 계획과 3D 실행 사이의 표현적 불일치(Representational Misalignment) 문제를 해결합니다.

#Review #Vision-Language-Action Models #3D Trajectory Guidance #Hierarchical Robotics #Metric Depth #Point Cloud Policy

2026년 7월 7일

[논문리뷰] InternVLA-A1.5: Unifying Understanding, Latent Foresight, and Action for Compositional Generalization

본 논문은 기존 VLA 모델들이 직면한 Semantics Erosion(사전 학습된 백본의 의미론적 지식 저하), Heterogeneous Objective Interference(서로 다른 학습 목적 간의 간섭), 그리고 픽셀 단위의 미래 예측에 따른 높은 비용 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Robot Manipulation #Latent Foresight #Compositional Generalization #Multimodal Co-training #Flow Matching

2026년 7월 6일

[논문리뷰] Learning to Move Before Learning to Do: Task-Agnostic pretraining for VLAs

본 논문은 현재 VLA 학습이 겪고 있는 데이터 부족 문제를 해결하기 위해, 대규모 Expert Demonstration 의존성을 탈피하는 새로운 사전 학습 프레임워크를 제안합니다. 기존의 VLA 모델은 고가의 인간 조작 데이터에 과도하게 의존하며, 이는 데이터 수집의 확장성을 저해하는 근본적인 병목 현상으로 작용합니다.

#Review #Vision-Language-Action Models #Task-Agnostic Pretraining #Embodied AI #Inverse Dynamics #Physical Grounding #Robotic Manipulation

2026년 7월 2일

[논문리뷰] Domain Arithmetic: One-Shot VLA Adaptation under Environmental Shifts

본 논문은 VLA 모델이 학습되지 않은 새로운 환경(예: 카메라 시점 변화, 로봇 기구학적 차이)에서 성능이 저하되는 문제를 해결하고자 합니다. 기존 방식은 새로운 환경에 적응하기 위해 대량의 시연 데이터로 모든 태스크를 Fine-tuning해야 하므로, 데이터 수집 비용이 매우 크고 실용적이지 않습니다.

#Review #Vision-Language-Action Models #One-Shot Adaptation #Domain Arithmetic #Weight Arithmetic #Subspace Alignment #Environmental Shifts

2026년 7월 1일

[논문리뷰] Translation as a Bridging Action: Transferring Manipulation Skills from Humans to Robots

본 논문은 인간의 풍부한 동작 데이터를 로봇 학습에 활용할 때 발생하는 데이터 간 불일치 및 품질 문제를 해결하고자 한다.

#Review #Robotics #Imitation Learning #Vision-Language-Action Models #Cross-Embodiment #Manipulation Skills #Bridging Action

2026년 6월 28일

[논문리뷰] Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement

본 논문은 imitation learning 기반의 VLA가 실제 로봇의 정밀한 물리적 상호작용에서 발생하는 오차 누적으로 인해 빈번히 실패하는 문제를 해결하고자 한다.

#Review #Vision-Language-Action Models #Reinforcement Learning #Sim-to-Real Transfer #Robot Manipulation #Object-Centric #Residual RL

2026년 6월 28일

[논문리뷰] EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies

본 논문은 기존의 VLA 모델이 엄격한 Markovian 가정 하에 작동하여 장기 작업(long-horizon) 중 발생하는 시각 정보의 차단이나 일시적 변화를 적절히 처리하지 못하는 문제를 해결합니다.

#Review #Vision-Language-Action Models #Robotic Manipulation #Long-Horizon #Memory-Augmented #Keyframe Evidence Memory #Non-Markovian

2026년 6월 23일

[논문리뷰] ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining

본 논문은 일반 목적의 VLA 모델 학습 시 데이터의 양과 다양성을 확보하기 위해 로봇 데이터와 대규모 인간 egocentric 영상을 통합하고자 합니다. 기존의 VLA pretraining은 로봇 실습 데이터의 비용과 노동 집약적 수집 방식 때문에 규모 확장에 한계가 있습니다.

#Review #Vision-Language-Action Models #Robot Manipulation #Learning from Human Video #Embodied AI #Cross-Embodiment #Pseudo-Action Supervision #Data Heterogeneity

2026년 6월 16일

[논문리뷰] LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

본 논문은 기존의 Vision-Language-Action models (VLAs)가 갖는 미래 예측 능력의 부재와, World-Action Models (WAMs)가 겪는 높은 추론 비용 문제를 해결하기 위해 제안되었습니다 .

#Review #Robot Manipulation #World Action Models #Latent World Models #Vision-Language-Action Models #Latent Subgoals

2026년 6월 15일

[논문리뷰] Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

본 논문은 VLA의 online RL fine-tuning이 에피소드당 단일 binary 성공/실패 신호만 제공하는 sparse outcome 문제를 지적하며, viability와 efficiency 신호를 분리해 transition 단위 학습 가중치를 생성하는 Hierarchical Advantage-Weighted Behavior Cloning(HABC)을 제안합니다.

#Review #Vision-Language-Action Models #Online Reinforcement Learning #Robot Manipulation #Hierarchical Advantage Weighting #Sparse Episode Outcomes #Dual-Head Critic #Intervention-Aware Credit Assignment

2026년 6월 15일

[논문리뷰] Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

본 연구는 파편화된 로봇 학습 시스템의 한계를 극복하고, 데이터 수집부터 실제 현장 배치(Deployment)까지를 아우르는 통합된 엔드투엔드 VLA 학습 스택을 구축하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied AI #Flow Matching #Robot Learning Stack #Proximalized Preference Optimization #UMI

2026년 6월 14일

[논문리뷰] Robots Need More than VLA and World Models

본 논문은 현재 로봇 학습 분야가 VLA 모델의 스케일링에만 지나치게 의존하고 있으며, 이것만으로는 일반적인 로봇 지능(Generalist robot intelligence)을 달성할 수 없다고 지적한다.

#Review #Robotics #Vision-Language-Action Models #Physical Intelligence #Embodied AI #Grounding #Robot Learning #Data Engines

2026년 6월 7일

[논문리뷰] Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems

본 논문은 블랙박스 형태의 Physical AI 모델이 생성한 행동이 물리적 실행으로 이어지기 전, 적절한 검증이 이루어지지 않아 발생하는 '행동 승인 공백(Action-Authorization Gap)' 문제를 다룹니다.

#Review #Physical AI #Runtime Guardrails #Embodied AI #Vision-Language-Action Models #Silent Failures #Runtime Assurance

2026년 6월 1일

[논문리뷰] RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models

본 논문은 현대의 VLA 모델들이 학습 과정에서 진정한 의미적 이해보다는 시각적 혹은 지시어-행동 간의 통계적 Shortcut에 의존하는 문제를 해결하고자 한다 . 저자들은 기존의 로봇 학습 벤치마크들이 단순한 형태의 명령어를 사용하여 모델의 진정한 의미론적 추론 능력을 검증하지 못하고 있다고 지적한다.

#Review #Vision-Language-Action Models #Embodied AI #Semantic Grounding #Action Prediction #Robotics Benchmark #Instruction-following

2026년 6월 1일

[논문리뷰] Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

본 논문은 기존의 embodied AI 모델들이 특정 작업이나 로봇 플랫폼에만 고도화되어 있어 발생하는 파편화(fragmentation) 문제를 해결하기 위해 통합 모델을 제안합니다. 현재의 방식은 데이터 활용도가 낮고 일반화 성능이 제한적이라는 한계가 있습니다.

#Review #Embodied Intelligence #Vision-Language-Action Models #Flow-matching #Multi-task Learning #Cross-embodiment #Reinforcement Learning

2026년 5월 28일

[논문리뷰] StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

본 논문은 기존 VLA 모델들이 훈련 데이터에 포함되지 않은 실세계의 다양한 시각적 노이즈(센서 노이즈, 모션 블러 등)에 매우 취약하다는 점을 지적합니다. 현재의 VLA 모델은 주로 깨끗한 환경에서만 평가되며, 실제 배포 시 시각적 왜곡이 발생하면 성능이 급격히 저하되는 'robustness gap'을 보입니다.

#Review #Vision-Language-Action Models #Information Bottleneck #Robustness #Modality Alignment #Embodied AI #Adapter Design

2026년 5월 18일

[논문리뷰] PhysBrain 1.0 Technical Report

본 논문은 기존 VLA 시스템이 의존하는 플랫폼 종속적인 로봇 궤적(Trajectory) 데이터 수집의 한계를 극복하고, 물리적 환경에 대한 근본적인 이해(Physical Commonsense)를 확보하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied Intelligence #Physical Commonsense #Egocentric Video #Data Engine #VLA Adaptation

2026년 5월 17일

[논문리뷰] DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo

본 논문은 기존의 로봇 조작 벤치마크가 단순한 그리퍼 중심의 환경에 치중되어 있어, 진정한 의미의 인간 수준(Human-level) 조작 능력을 평가하는 데 한계가 있다는 문제 의식에서 출발합니다.

#Review #Dexterous Manipulation #Robotics Benchmark #Teleoperation #Imitation Learning #Vision-Language-Action Models #MuJoCo #Domain Randomization

2026년 5월 17일

[논문리뷰] Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

본 논문은 현대의 VLA 모델들이 Action Chunking 방식을 채택함에 따라 발생하는 Dynamics-Blindness 문제를 해결하는 데 집중한다 . 대부분의 VLA 모델은 고정된 단일 정적 프레임을 기반으로 미래 동작을 예측하기 때문에, 실행 과정에서 발생하는 환경 변화에 대응할 수 없다.

#Review #Vision-Language-Action Models #Action Chunking #Robotic Manipulation #Dynamic Environments #Inference-time Wrapper #Closed-form Optimization

2026년 5월 14일

[논문리뷰] UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

본 논문은 시각적 앵커링을 통해 이질적인 동작들을 공통 잠재 공간으로 정렬하는 UniT를 제안합니다. UniT는 시각적, 동작적, 융합적 세 가지 브랜치로 구성된 트리 브랜치(tri-branch) 아키텍처를 가지며, 모든 브랜치는 Residual Quantization(RQ-VAE)을 통해 공유 코드북(shared codebook)으로 양자화됩니다 .

#Review #Humanoid Robotics #Vision-Language-Action Models #Cross-Embodiment Transfer #Latent Action Tokenizer #World Modeling #Visual Anchoring #Cross-Reconstruction

2026년 4월 23일

[논문리뷰] Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

본 논문은 로봇 제어 루프에 월드 모델을 통합하여 미래 예측과 평가 과정을 추가하는 Cortex 2.0 아키텍처를 제안합니다 . 제안 모델은 현재 관측치를 바탕으로 월드 모델을 통해 $k$개의 미래 궤적 후보를 잠재 공간(Visual latent space)에서 생성합니다.

#Review #Vision-Language-Action Models #World Models #Robotic Manipulation #Plan-and-Act #Process-Reward Operator #Flow Matching #Cross-Embodiment

2026년 4월 22일

[논문리뷰] UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

본 논문은 VLA 모델을 자율주행에 적용할 때 발생하는 공간 인지와 의미론적 추론 간의 근본적인 충돌 문제를 해결하고자 합니다. 기존의 VLA 시스템들은 주로 사전 학습된 2D VLM을 기반으로 하는데, 이는 강력한 의미론적 이해 능력을 갖춘 반면 자율주행에 필수적인 공간 인지 능력이 부족하다는 한계를 지닙니다.

#Review #Vision-Language-Action Models #Autonomous Driving #Mixture-of-Transformers #Sparse Perception #Representation Interference #End-to-End Planning

2026년 4월 2일

[논문리뷰] Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

최근 Vision-Language-Action (VLA) model의 발전은 large-scale multi-robot dataset을 통해 robot policy를 pretrain하는 데 큰 진전을 보였습니다.

#Review #Offline Reinforcement Learning #Vision-Language-Action Models #Data Reweighting #Posterior-Transition Reweighting #Cross-Embodiment Transfer #Robot Learning

2026년 3월 18일

[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

본 논문은 장기적이고 이력 의존적인 로봇 조작 태스크에서 메모리 기반의 Vision-Language-Action (VLA) 모델 의 체계적인 평가 및 발전을 위한 표준화된 벤치마크를 구축하는 것을 목표로 합니다. 기존 메모리 메커니즘 평가의 비표준화된 환경과 제한적인 이해를 개선하고자 합니다.

#Review #Robotics #Memory #Benchmark #Manipulation #Vision-Language-Action Models #Temporal Memory #Spatial Memory #Procedural Memory

2026년 3월 8일

[논문리뷰] Chain of World: World Model Thinking in Latent Motion

기존 VLA(Vision-Language-Action) 모델이 예측 능력 부족과 시각적 중복성 재구성에 따른 비효율성을 보이는 한계를 극복하고, 잠재 액션 모델의 연속적인 동적 모델링 및 세계 지식 부족 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #World Models #Latent Motion #Embodied Intelligence #Temporal Reasoning #Disentangled Representation #Robotics #Pretraining

2026년 3월 3일

[논문리뷰] VLANeXt: Recipes for Building Strong VLA Models

파편화되어 있는 Vision-Language-Action (VLA) 모델 연구 분야에 구조를 제공하고, 일관된 프레임워크와 평가 환경에서 VLA 모델의 설계 공간을 체계적으로 재검토하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Imitation Learning #Foundation Models #Ablation Study #Generalization #LIBERO Benchmark #Time-Series Forecasting

2026년 2월 23일

[논문리뷰] SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 고정된 추론 파이프라인이 지각적 모호성이나 행동의 다중 양상과 같은 불확실한 상황에서 오류를 누적하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Self-Uncertainty Estimation #Adaptive Inference #Active Perception #Action Decoding #Visual Attention #Robotic Manipulation

2026년 2월 10일

[논문리뷰] Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

기존 VLA 모델의 고정된 연산 깊이로 인한 비효율성과 토큰 기반 추론의 메모리 및 연속적인 액션 공간 한계를 해결합니다. 태스크 복잡도에 따라 테스트 시 연산량을 동적으로 조절 하고, 일정한 메모리 공간 을 유지하며 로봇 제어 를 위한 효율적인 추론 메커니즘을 제공하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Latent Iterative Reasoning #Adaptive Compute #Recurrent Neural Networks #Robotics #Transformer #Test-Time Scaling #Continuous Action Space

2026년 2월 9일

[논문리뷰] Shallow-π: Knowledge Distillation for Flow-based VLAs

본 논문은 대규모 Vision-Language-Action (VLA) 모델 의 높은 연산 비용으로 인해 엣지 디바이스에서의 실시간 배포가 어려운 문제를 해결하고자 합니다.

#Review #Knowledge Distillation #Flow-based VLA #Transformer Compression #Real-time Robotics #Edge AI #Vision-Language-Action Models #Inference Efficiency

2026년 1월 28일

[논문리뷰] BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Vision-Language-Action (VLA) 모델이 새로운 지시나 복잡한 다중 작업 시나리오에서 일반화하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Bayesian Decomposition #Latent Action Queries #Information Collapse #OOD Generalization #Robot Manipulation #Pointwise Mutual Information

2026년 1월 22일

[논문리뷰] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

논문은 다양한 로봇 플랫폼에 걸쳐 견고한 Cross-Embodiment Generalization 을 달성하기 위한 Human-Centric Robot Learning 패러다임을 제안합니다.

#Review #Robot Learning #Cross-Embodiment Generalization #Vision-Language-Action Models #Human-Centric Learning #Unified Action Space #Mixture-of-Flow #Real-Time Deployment #Large-Scale Datasets

2026년 1월 20일

[논문리뷰] CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

본 논문은 로봇이 실제 환경에서 새로운 작업을 지속적으로 학습하면서도 기존 지식을 잊지 않는 catastrophic forgetting 문제 를 해결하고, 과거 데이터 저장 및 작업 식별자 없이 작동하는 exemplar-free continual learning 을 Vision-Language-Action (VLA) 모델 에 적용하는 것을 목표로 합니다.

#Review #Continual Learning #Vision-Language-Action Models #Adapter Learning #Catastrophic Forgetting #Autonomous Routing #Parameter-Efficient Learning #Robotics

2026년 1월 19일

[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Online Post-training #Scalable Robot Learning #Distributed Systems #Multi-task Learning #Imitation Learning #Reinforcement Learning

2026년 1월 6일

[논문리뷰] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

본 논문은 수술 로봇 학습의 주요 병목인 시각 관측 및 정확한 로봇 움직임 데이터의 부족 문제 를 해결하고자 합니다. 대량의 수술 비디오가 존재하지만 로봇 액션 레이블이 없어 모방 학습에 직접 활용하기 어렵습니다. 따라서, 세계 모델을 통해 일반화 가능하고 데이터 효율적인 수술 로봇 정책 을 학습하는 것을 목표로 합니다.

#Review #Surgical Robotics #World Models #Video Generation #Imitation Learning #Inverse Dynamics Model #Synthetic Data #Vision-Language-Action Models #Data Scarcity

2025년 12월 29일

[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Vision-Language Models #Vision-Language-Action Models #Robotics #Multimodal AI #Action Planning #Long-Horizon Planning #Bidirectional Attention

2025년 12월 29일

[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied Intelligence #Robotics #Foundation Models #Multi-modal Learning #Reinforcement Learning #Sim-to-Real Transfer #Human-Robot Interaction

2025년 12월 21일

[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Anti-Exploration #Test-Time Scaling #Pseudo-Count #Coin Flipping Network #Offline Reinforcement Learning #Robotics

2025년 12월 3일

[논문리뷰] Mixture of Horizons in Action Chunking

본 논문은 Vision-Language-Action (VLA) 모델 에서 고정된 액션 청크 길이(horizon) 가 유발하는 근본적인 한계점을 해결하고자 합니다.

#Review #Vision-Language-Action Models #Action Chunking #Robotic Manipulation #Multi-horizon Planning #Transformer Architecture #Gated Fusion #Dynamic Inference

2025년 12월 2일

[논문리뷰] VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

본 논문은 Vision-Language-Action (VLA) 모델의 실제 로봇 배포 시 발생하는 동기식 추론의 비효율성 (액션 지연 및 느린 반응) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Asynchronous Inference #Real-Time Robotics #Low-Latency Control #Future State Awareness #Action Quantization #Temporal Alignment

2025년 12월 1일

[논문리뷰] VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation

본 논문은 기존 VLA 모델이 겪는 공간-시간적 불연속성(spatiotemporally discontinuous) 및 미세한 제어 부족 문제를 해결하여, 로봇 조작을 위한 공간-시간적으로 일관성 있는(spatiotemporally coherent) VLA 모델인 VLA-4D 를 제안합니다.

#Review #Vision-Language-Action Models #Robotic Manipulation #SpatioTemporal Coherence #4D Awareness #Visual Representation #Action Representation #Cross-Attention

2025년 11월 23일

[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language-Action Models #Reward Shaping #World Models #Self-Referential Learning #Robotics #Trajectory Optimization

2025년 11월 20일

[논문리뷰] 10 Open Challenges Steering the Future of Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델 의 개발과 광범위한 수용을 가속화하기 위해 현재 연구 분야에서 직면한 10가지 주요 개방형 과제를 식별하고 논의하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied AI #Robotics #Multimodal Perception #Cross-Robot Generalization #Hierarchical Planning #World Models #Robot Safety

2025년 11월 10일

[논문리뷰] iFlyBot-VLA Technical Report

iFlyBot-VLA는 장기적인 로봇 조작 작업을 위한 대규모 Vision-Language-Action (VLA) 모델 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Imitation Learning #Latent Actions #Diffusion Models #Dual-Arm Manipulation #Pretraining #Flow-Matching

2025년 11월 9일

[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

본 논문은 학습 기반 로봇 제어 알고리즘, 특히 Vision-Language-Action (VLA) 모델 의 대규모, 재현성 및 확장 가능한 실제 로봇 평가를 위한 도전 과제를 해결하는 것을 목표로 합니다.

#Review #Robotics #Real-robot Evaluation #Embodied AI #Vision-Language-Action Models #Benchmarking #Online Testing System #Robotics Control #Large-scale Evaluation

2025년 11월 9일

[논문리뷰] Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

논문은 사전 훈련된 Vision-Language-Action (VLA) 모델이 로봇 액션 태스크에 미세 조정될 때 발생하는 시각 표현의 퇴화(degradation) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #OOD Generalization #Representation Alignment #Fine-tuning #Robotics #Visual Representations #Attention Maps #t-SNE

2025년 11월 9일

[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

본 논문은 세계 모델이 증강된 Vision-Language-Action (VLA) 모델에서 차세대 관측 및 액션 시퀀스를 공동으로 예측하는 데 내재된 모달리티 충돌 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #World Models #Diffusion Models #Multimodal Learning #Robotics #Asynchronous Sampling #Diffusion Transformers

2025년 11월 9일

[논문리뷰] Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

본 논문은 자율주행 시스템에서 기존 모방 학습 기반 VLA(Vision-Language-Action) 모델 이 물리적 규칙 및 안전 제약 조건을 내재적으로 인코딩하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language-Action Models #Discrete Diffusion #Reflection Mechanism #Trajectory Generation #Safety Constraints #Imitation Learning

2025년 9월 26일

[논문리뷰] FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

본 논문은 현재 Vision-Language-Action (VLA) 정책의 높은 계산 비용과 자원 요구사항 문제를 해결하고자 합니다. 특히, 수십억 개의 파라미터를 가진 대규모 모델 없이도 강력한 성능을 달성하는 효율적인 일반화 로봇 정책을 개발하는 것을 목표로 합니다.

#Review #Generalist Robot Policies #Vision-Language-Action Models #Efficient AI #Imitation Learning #Diffusion Models #Intermediate Fusion #Robotics

2025년 9월 15일

[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

VLA(Vision-Language-Action) 모델이 대규모 VLM(Vision-Language Model)과 광범위한 사전 훈련에 크게 의존하여 발생하는 높은 훈련 비용, 느린 미세 조정, 과도한 VRAM 사용 및 낮은 추론 효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Multimodal Learning #Efficient AI #Model Adaptation #Bridge Attention #Low-resource Training

2025년 9월 12일

[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

본 연구는 기존 VLA 모델들이 가진 제한된 도메인 및 유연성 문제를 해결하고, 개방형 환경에서 인간 수준의 유연한 다중 모달 추론 및 물리적 상호작용 을 가능하게 하는 일반ist 로봇 제어를 목표로 합니다.

#Review #Embodied AI #Robot Control #Vision-Language-Action Models #Multimodal Pretraining #Flow Matching #Foundation Models #Generalization #Real-world Robotics

2025년 9월 1일

[논문리뷰] Do What? Teaching Vision-Language-Action Models to Reject the Impossible

본 논문은 Vision-Language-Action (VLA) 모델이 존재하지 않는 객체나 조건('false-premise instructions')을 참조하는 명령을 받았을 때 이를 인식하고, 해석하며, 적절히 응답하는 능력이 부족하다는 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #False Premise Detection #Instruction Following #Human-Robot Interaction #Clarification #Instruction Tuning

2025년 8월 25일

[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.

#Review #Vision-Language-Action Models #Latent Actions #Robot Manipulation #Pre-training #Diffusion Models #Proprioceptive Feedback #Foundation Models

2025년 8월 2일

[논문리뷰] VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

본 논문은 기존 VLA 모델이 훈련 데이터 외부의 미확인 객체 개념(unseen concepts) 에 직면했을 때 급격히 성능이 저하되는 문제, 즉 OOD(Out-of-Distribution) 일반화 실패를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Agentic Framework #Unseen Concept Manipulation #Out-of-Distribution Generalization #Tool Use #Web Retrieval #Object Detection #LIBERO Simulation

2025년 10월 17일

[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification

본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #VLA-0 #Zero Modification #Text-based Action Prediction #Robot Manipulation #Large Language Models #Fine-tuning #State-of-the-Art

2025년 10월 17일

[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성 을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족 과 일반화 능력의 한계 를 심층적으로 규명하고자 합니다.

#Review #Vision-Language-Action Models #Robotics #Robustness Analysis #Generalization #Perturbations #Benchmark #LIBERO-Plus #Multimodal AI

2025년 10월 16일

[논문리뷰] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

본 논문은 2D 데이터로 사전 훈련된 VLA 모델이 3D 물리 세계에서 정확한 동작을 수행하는 데 필요한 공간 인식이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Spatial Perception #Implicit Representation Alignment #3D Foundation Models #Robotics #Data Efficiency #Representation Learning

2025년 10월 15일

[논문리뷰] Robot Learning: A Tutorial

이 튜토리얼은 현대 로봇 학습의 발전 과정을 종합적으로 안내하여, 연구자와 실무자가 로봇 학습 분야의 개념적 이해와 실제 도구를 습득하도록 돕는 것을 목표로 합니다.

#Review #Robot Learning #Reinforcement Learning #Imitation Learning #Behavioral Cloning #Vision-Language-Action Models #Diffusion Models #Transformers #LeRobot

2025년 10월 15일

[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.

#Review #Vision-Language-Action Models #Reinforcement Learning #World Models #Fine-tuning #Embodied AI #Robotics #Reward Design #Distribution Shift

2025년 10월 2일