[논문리뷰] Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems본 논문은 블랙박스 형태의 Physical AI 모델이 생성한 행동이 물리적 실행으로 이어지기 전, 적절한 검증이 이루어지지 않아 발생하는 '행동 승인 공백(Action-Authorization Gap)' 문제를 다룹니다.#Review#Physical AI#Runtime Guardrails#Embodied AI#Vision-Language-Action Models#Silent Failures#Runtime Assurance2026년 6월 1일댓글 수 로딩 중
[논문리뷰] RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models본 논문은 현대의 VLA 모델들이 학습 과정에서 진정한 의미적 이해보다는 시각적 혹은 지시어-행동 간의 통계적 Shortcut에 의존하는 문제를 해결하고자 한다 . 저자들은 기존의 로봇 학습 벤치마크들이 단순한 형태의 명령어를 사용하여 모델의 진정한 의미론적 추론 능력을 검증하지 못하고 있다고 지적한다.#Review#Vision-Language-Action Models#Embodied AI#Semantic Grounding#Action Prediction#Robotics Benchmark#Instruction-following2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments본 논문은 기존의 embodied AI 모델들이 특정 작업이나 로봇 플랫폼에만 고도화되어 있어 발생하는 파편화(fragmentation) 문제를 해결하기 위해 통합 모델을 제안합니다. 현재의 방식은 데이터 활용도가 낮고 일반화 성능이 제한적이라는 한계가 있습니다.#Review#Embodied Intelligence#Vision-Language-Action Models#Flow-matching#Multi-task Learning#Cross-embodiment#Reinforcement Learning2026년 5월 28일댓글 수 로딩 중
[논문리뷰] StableVLA: Towards Robust Vision-Language-Action Models without Extra Data본 논문은 기존 VLA 모델들이 훈련 데이터에 포함되지 않은 실세계의 다양한 시각적 노이즈(센서 노이즈, 모션 블러 등)에 매우 취약하다는 점을 지적합니다. 현재의 VLA 모델은 주로 깨끗한 환경에서만 평가되며, 실제 배포 시 시각적 왜곡이 발생하면 성능이 급격히 저하되는 'robustness gap'을 보입니다.#Review#Vision-Language-Action Models#Information Bottleneck#Robustness#Modality Alignment#Embodied AI#Adapter Design2026년 5월 18일댓글 수 로딩 중
[논문리뷰] PhysBrain 1.0 Technical Report본 논문은 기존 VLA 시스템이 의존하는 플랫폼 종속적인 로봇 궤적(Trajectory) 데이터 수집의 한계를 극복하고, 물리적 환경에 대한 근본적인 이해(Physical Commonsense)를 확보하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Physical Commonsense#Egocentric Video#Data Engine#VLA Adaptation2026년 5월 17일댓글 수 로딩 중
[논문리뷰] DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo본 논문은 기존의 로봇 조작 벤치마크가 단순한 그리퍼 중심의 환경에 치중되어 있어, 진정한 의미의 인간 수준(Human-level) 조작 능력을 평가하는 데 한계가 있다는 문제 의식에서 출발합니다.#Review#Dexterous Manipulation#Robotics Benchmark#Teleoperation#Imitation Learning#Vision-Language-Action Models#MuJoCo#Domain Randomization2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models본 논문은 현대의 VLA 모델들이 Action Chunking 방식을 채택함에 따라 발생하는 Dynamics-Blindness 문제를 해결하는 데 집중한다 . 대부분의 VLA 모델은 고정된 단일 정적 프레임을 기반으로 미래 동작을 예측하기 때문에, 실행 과정에서 발생하는 환경 변화에 대응할 수 없다.#Review#Vision-Language-Action Models#Action Chunking#Robotic Manipulation#Dynamic Environments#Inference-time Wrapper#Closed-form Optimization2026년 5월 14일댓글 수 로딩 중
[논문리뷰] UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling본 논문은 시각적 앵커링을 통해 이질적인 동작들을 공통 잠재 공간으로 정렬하는 UniT를 제안합니다. UniT는 시각적, 동작적, 융합적 세 가지 브랜치로 구성된 트리 브랜치(tri-branch) 아키텍처를 가지며, 모든 브랜치는 Residual Quantization(RQ-VAE)을 통해 공유 코드북(shared codebook)으로 양자화됩니다 .#Review#Humanoid Robotics#Vision-Language-Action Models#Cross-Embodiment Transfer#Latent Action Tokenizer#World Modeling#Visual Anchoring#Cross-Reconstruction2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Cortex 2.0: Grounding World Models in Real-World Industrial Deployment본 논문은 로봇 제어 루프에 월드 모델을 통합하여 미래 예측과 평가 과정을 추가하는 Cortex 2.0 아키텍처를 제안합니다 . 제안 모델은 현재 관측치를 바탕으로 월드 모델을 통해 $k$개의 미래 궤적 후보를 잠재 공간(Visual latent space)에서 생성합니다.#Review#Vision-Language-Action Models#World Models#Robotic Manipulation#Plan-and-Act#Process-Reward Operator#Flow Matching#Cross-Embodiment2026년 4월 22일댓글 수 로딩 중
[논문리뷰] UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving본 논문은 VLA 모델을 자율주행에 적용할 때 발생하는 공간 인지와 의미론적 추론 간의 근본적인 충돌 문제를 해결하고자 합니다. 기존의 VLA 시스템들은 주로 사전 학습된 2D VLM을 기반으로 하는데, 이는 강력한 의미론적 이해 능력을 갖춘 반면 자율주행에 필수적인 공간 인지 능력이 부족하다는 한계를 지닙니다.#Review#Vision-Language-Action Models#Autonomous Driving#Mixture-of-Transformers#Sparse Perception#Representation Interference#End-to-End Planning2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting최근 Vision-Language-Action (VLA) model의 발전은 large-scale multi-robot dataset을 통해 robot policy를 pretrain하는 데 큰 진전을 보였습니다.#Review#Offline Reinforcement Learning#Vision-Language-Action Models#Data Reweighting#Posterior-Transition Reweighting#Cross-Embodiment Transfer#Robot Learning2026년 3월 18일댓글 수 로딩 중
[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies본 논문은 장기적이고 이력 의존적인 로봇 조작 태스크에서 메모리 기반의 Vision-Language-Action (VLA) 모델 의 체계적인 평가 및 발전을 위한 표준화된 벤치마크를 구축하는 것을 목표로 합니다. 기존 메모리 메커니즘 평가의 비표준화된 환경과 제한적인 이해를 개선하고자 합니다.#Review#Robotics#Memory#Benchmark#Manipulation#Vision-Language-Action Models#Temporal Memory#Spatial Memory#Procedural Memory2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Chain of World: World Model Thinking in Latent Motion기존 VLA(Vision-Language-Action) 모델이 예측 능력 부족과 시각적 중복성 재구성에 따른 비효율성을 보이는 한계를 극복하고, 잠재 액션 모델의 연속적인 동적 모델링 및 세계 지식 부족 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#World Models#Latent Motion#Embodied Intelligence#Temporal Reasoning#Disentangled Representation#Robotics#Pretraining2026년 3월 3일댓글 수 로딩 중
[논문리뷰] VLANeXt: Recipes for Building Strong VLA Models파편화되어 있는 Vision-Language-Action (VLA) 모델 연구 분야에 구조를 제공하고, 일관된 프레임워크와 평가 환경에서 VLA 모델의 설계 공간을 체계적으로 재검토하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Imitation Learning#Foundation Models#Ablation Study#Generalization#LIBERO Benchmark#Time-Series Forecasting2026년 2월 23일댓글 수 로딩 중
[논문리뷰] SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델의 고정된 추론 파이프라인이 지각적 모호성이나 행동의 다중 양상과 같은 불확실한 상황에서 오류를 누적하는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Self-Uncertainty Estimation#Adaptive Inference#Active Perception#Action Decoding#Visual Attention#Robotic Manipulation2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning기존 VLA 모델의 고정된 연산 깊이로 인한 비효율성과 토큰 기반 추론의 메모리 및 연속적인 액션 공간 한계를 해결합니다. 태스크 복잡도에 따라 테스트 시 연산량을 동적으로 조절 하고, 일정한 메모리 공간 을 유지하며 로봇 제어 를 위한 효율적인 추론 메커니즘을 제공하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Latent Iterative Reasoning#Adaptive Compute#Recurrent Neural Networks#Robotics#Transformer#Test-Time Scaling#Continuous Action Space2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Shallow-π: Knowledge Distillation for Flow-based VLAs본 논문은 대규모 Vision-Language-Action (VLA) 모델 의 높은 연산 비용으로 인해 엣지 디바이스에서의 실시간 배포가 어려운 문제를 해결하고자 합니다.#Review#Knowledge Distillation#Flow-based VLA#Transformer Compression#Real-time Robotics#Edge AI#Vision-Language-Action Models#Inference Efficiency2026년 1월 28일댓글 수 로딩 중
[논문리뷰] BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action QueriesVision-Language-Action (VLA) 모델이 새로운 지시나 복잡한 다중 작업 시나리오에서 일반화하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action Models#Bayesian Decomposition#Latent Action Queries#Information Collapse#OOD Generalization#Robot Manipulation#Pointwise Mutual Information2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization논문은 다양한 로봇 플랫폼에 걸쳐 견고한 Cross-Embodiment Generalization 을 달성하기 위한 Human-Centric Robot Learning 패러다임을 제안합니다.#Review#Robot Learning#Cross-Embodiment Generalization#Vision-Language-Action Models#Human-Centric Learning#Unified Action Space#Mixture-of-Flow#Real-Time Deployment#Large-Scale Datasets2026년 1월 20일댓글 수 로딩 중
[논문리뷰] CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion본 논문은 로봇이 실제 환경에서 새로운 작업을 지속적으로 학습하면서도 기존 지식을 잊지 않는 catastrophic forgetting 문제 를 해결하고, 과거 데이터 저장 및 작업 식별자 없이 작동하는 exemplar-free continual learning 을 Vision-Language-Action (VLA) 모델 에 적용하는 것을 목표로 합니다.#Review#Continual Learning#Vision-Language-Action Models#Adapter Learning#Catastrophic Forgetting#Autonomous Routing#Parameter-Efficient Learning#Robotics2026년 1월 19일댓글 수 로딩 중
[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Online Post-training#Scalable Robot Learning#Distributed Systems#Multi-task Learning#Imitation Learning#Reinforcement Learning2026년 1월 6일댓글 수 로딩 중
[논문리뷰] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling본 논문은 수술 로봇 학습의 주요 병목인 시각 관측 및 정확한 로봇 움직임 데이터의 부족 문제 를 해결하고자 합니다. 대량의 수술 비디오가 존재하지만 로봇 액션 레이블이 없어 모방 학습에 직접 활용하기 어렵습니다. 따라서, 세계 모델을 통해 일반화 가능하고 데이터 효율적인 수술 로봇 정책 을 학습하는 것을 목표로 합니다.#Review#Surgical Robotics#World Models#Video Generation#Imitation Learning#Inverse Dynamics Model#Synthetic Data#Vision-Language-Action Models#Data Scarcity2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Vision-Language Models#Vision-Language-Action Models#Robotics#Multimodal AI#Action Planning#Long-Horizon Planning#Bidirectional Attention2025년 12월 29일댓글 수 로딩 중
[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Robotics#Foundation Models#Multi-modal Learning#Reinforcement Learning#Sim-to-Real Transfer#Human-Robot Interaction2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action Models#Anti-Exploration#Test-Time Scaling#Pseudo-Count#Coin Flipping Network#Offline Reinforcement Learning#Robotics2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Mixture of Horizons in Action Chunking본 논문은 Vision-Language-Action (VLA) 모델 에서 고정된 액션 청크 길이(horizon) 가 유발하는 근본적인 한계점을 해결하고자 합니다.#Review#Vision-Language-Action Models#Action Chunking#Robotic Manipulation#Multi-horizon Planning#Transformer Architecture#Gated Fusion#Dynamic Inference2025년 12월 2일댓글 수 로딩 중
[논문리뷰] VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference본 논문은 Vision-Language-Action (VLA) 모델의 실제 로봇 배포 시 발생하는 동기식 추론의 비효율성 (액션 지연 및 느린 반응) 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Asynchronous Inference#Real-Time Robotics#Low-Latency Control#Future State Awareness#Action Quantization#Temporal Alignment2025년 12월 1일댓글 수 로딩 중
[논문리뷰] VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation본 논문은 기존 VLA 모델이 겪는 공간-시간적 불연속성(spatiotemporally discontinuous) 및 미세한 제어 부족 문제를 해결하여, 로봇 조작을 위한 공간-시간적으로 일관성 있는(spatiotemporally coherent) VLA 모델인 VLA-4D 를 제안합니다.#Review#Vision-Language-Action Models#Robotic Manipulation#SpatioTemporal Coherence#4D Awareness#Visual Representation#Action Representation#Cross-Attention2025년 11월 23일댓글 수 로딩 중
[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language-Action Models#Reward Shaping#World Models#Self-Referential Learning#Robotics#Trajectory Optimization2025년 11월 20일댓글 수 로딩 중
[논문리뷰] 10 Open Challenges Steering the Future of Vision-Language-Action Models본 논문은 Vision-Language-Action (VLA) 모델 의 개발과 광범위한 수용을 가속화하기 위해 현재 연구 분야에서 직면한 10가지 주요 개방형 과제를 식별하고 논의하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied AI#Robotics#Multimodal Perception#Cross-Robot Generalization#Hierarchical Planning#World Models#Robot Safety2025년 11월 10일댓글 수 로딩 중
[논문리뷰] iFlyBot-VLA Technical ReportiFlyBot-VLA는 장기적인 로봇 조작 작업을 위한 대규모 Vision-Language-Action (VLA) 모델 을 개발하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Imitation Learning#Latent Actions#Diffusion Models#Dual-Arm Manipulation#Pretraining#Flow-Matching2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies본 논문은 학습 기반 로봇 제어 알고리즘, 특히 Vision-Language-Action (VLA) 모델 의 대규모, 재현성 및 확장 가능한 실제 로봇 평가를 위한 도전 과제를 해결하는 것을 목표로 합니다.#Review#Robotics#Real-robot Evaluation#Embodied AI#Vision-Language-Action Models#Benchmarking#Online Testing System#Robotics Control#Large-scale Evaluation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization논문은 사전 훈련된 Vision-Language-Action (VLA) 모델이 로봇 액션 태스크에 미세 조정될 때 발생하는 시각 표현의 퇴화(degradation) 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#OOD Generalization#Representation Alignment#Fine-tuning#Robotics#Visual Representations#Attention Maps#t-SNE2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model본 논문은 세계 모델이 증강된 Vision-Language-Action (VLA) 모델에서 차세대 관측 및 액션 시퀀스를 공동으로 예측하는 데 내재된 모달리티 충돌 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#World Models#Diffusion Models#Multimodal Learning#Robotics#Asynchronous Sampling#Diffusion Transformers2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving본 논문은 자율주행 시스템에서 기존 모방 학습 기반 VLA(Vision-Language-Action) 모델 이 물리적 규칙 및 안전 제약 조건을 내재적으로 인코딩하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Autonomous Driving#Vision-Language-Action Models#Discrete Diffusion#Reflection Mechanism#Trajectory Generation#Safety Constraints#Imitation Learning2025년 9월 26일댓글 수 로딩 중
[논문리뷰] FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies본 논문은 현재 Vision-Language-Action (VLA) 정책의 높은 계산 비용과 자원 요구사항 문제를 해결하고자 합니다. 특히, 수십억 개의 파라미터를 가진 대규모 모델 없이도 강력한 성능을 달성하는 효율적인 일반화 로봇 정책을 개발하는 것을 목표로 합니다.#Review#Generalist Robot Policies#Vision-Language-Action Models#Efficient AI#Imitation Learning#Diffusion Models#Intermediate Fusion#Robotics2025년 9월 15일댓글 수 로딩 중
[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action ModelVLA(Vision-Language-Action) 모델이 대규모 VLM(Vision-Language Model)과 광범위한 사전 훈련에 크게 의존하여 발생하는 높은 훈련 비용, 느린 미세 조정, 과도한 VRAM 사용 및 낮은 추론 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Multimodal Learning#Efficient AI#Model Adaptation#Bridge Attention#Low-resource Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control본 연구는 기존 VLA 모델들이 가진 제한된 도메인 및 유연성 문제를 해결하고, 개방형 환경에서 인간 수준의 유연한 다중 모달 추론 및 물리적 상호작용 을 가능하게 하는 일반ist 로봇 제어를 목표로 합니다.#Review#Embodied AI#Robot Control#Vision-Language-Action Models#Multimodal Pretraining#Flow Matching#Foundation Models#Generalization#Real-world Robotics2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Do What? Teaching Vision-Language-Action Models to Reject the Impossible본 논문은 Vision-Language-Action (VLA) 모델이 존재하지 않는 객체나 조건('false-premise instructions')을 참조하는 명령을 받았을 때 이를 인식하고, 해석하며, 적절히 응답하는 능력이 부족하다는 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#False Premise Detection#Instruction Following#Human-Robot Interaction#Clarification#Instruction Tuning2025년 8월 25일댓글 수 로딩 중
[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.#Review#Vision-Language-Action Models#Latent Actions#Robot Manipulation#Pre-training#Diffusion Models#Proprioceptive Feedback#Foundation Models2025년 8월 2일댓글 수 로딩 중
[논문리뷰] VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation본 논문은 기존 VLA 모델이 훈련 데이터 외부의 미확인 객체 개념(unseen concepts) 에 직면했을 때 급격히 성능이 저하되는 문제, 즉 OOD(Out-of-Distribution) 일반화 실패를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Agentic Framework#Unseen Concept Manipulation#Out-of-Distribution Generalization#Tool Use#Web Retrieval#Object Detection#LIBERO Simulation2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#VLA-0#Zero Modification#Text-based Action Prediction#Robot Manipulation#Large Language Models#Fine-tuning#State-of-the-Art2025년 10월 17일댓글 수 로딩 중
[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성 을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족 과 일반화 능력의 한계 를 심층적으로 규명하고자 합니다.#Review#Vision-Language-Action Models#Robotics#Robustness Analysis#Generalization#Perturbations#Benchmark#LIBERO-Plus#Multimodal AI2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model본 논문은 2D 데이터로 사전 훈련된 VLA 모델이 3D 물리 세계에서 정확한 동작을 수행하는 데 필요한 공간 인식이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Spatial Perception#Implicit Representation Alignment#3D Foundation Models#Robotics#Data Efficiency#Representation Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Robot Learning: A Tutorial이 튜토리얼은 현대 로봇 학습의 발전 과정을 종합적으로 안내하여, 연구자와 실무자가 로봇 학습 분야의 개념적 이해와 실제 도구를 습득하도록 돕는 것을 목표로 합니다.#Review#Robot Learning#Reinforcement Learning#Imitation Learning#Behavioral Cloning#Vision-Language-Action Models#Diffusion Models#Transformers#LeRobot2025년 10월 15일댓글 수 로딩 중
[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.#Review#Vision-Language-Action Models#Reinforcement Learning#World Models#Fine-tuning#Embodied AI#Robotics#Reward Design#Distribution Shift2025년 10월 2일댓글 수 로딩 중