#Robot Manipulation

18개의 포스트

[논문리뷰] GEM: Generative Supervision Helps Embodied Intelligence

본 논문은 현재의 Embodied VLM들이 고수준의 언어적 추론에는 능숙하지만, 실제 물리 환경에서 로봇을 제어하기 위한 미세한 공간적 구조와 물리적 인지 능력이 결합되지 못하는 한계를 해결하고자 합니다.

#Review #Embodied Intelligence #Vision-Language Models #Generative Supervision #Depth Map Prediction #Diffusion Transformer #Robot Manipulation #Spatiotemporal Planning

2026년 5월 27일

[논문리뷰] IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

본 논문은 프레임 단위로만 조건을 부여하는 기존 VLA 모델들이 부분 관측성(Partial Observability) 하에서 발생하는 짧은 기간의 의도 모호성 문제를 해결하지 못한다는 점을 지적합니다.

#Review #Vision-Language-Action (VLA)#Robot Manipulation #AliasBench #Short-Horizon Intent #Imitation Learning #Inter-chunk Consistency #Partial Observability

2026년 5월 14일

[논문리뷰] FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

본 논문은 기존 VLA 모델 학습 과정에서 무분별하게 모든 프레임을 동일한 비중으로 사용하는 'Temporal supervision imbalance' 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Robot Manipulation #Frame Selection #Temporal Supervision #Data Curation #Policy Learning #Embodied AI

2026년 5월 13일

[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Real-Time Robotics #Diffusion Transformer #Flow Matching #Asynchronous Execution #Robot Manipulation #Pre-training #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Vision-Language-Action (VLA) 모델이 새로운 지시나 복잡한 다중 작업 시나리오에서 일반화하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Bayesian Decomposition #Latent Action Queries #Information Collapse #OOD Generalization #Robot Manipulation #Pointwise Mutual Information

2026년 1월 22일

[논문리뷰] RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation

로봇 조작 데이터 수집의 어려움으로 인한 데이터 부족 및 다양성 한계를 극복하고, 기존 생성 모델이 간과했던 멀티-뷰(multi-view) 및 시간적 일관성(temporal coherence) 문제를 해결하여 로봇 정책 훈련에 필요한 고품질의 증강 데이터를 생성하는 것이 목표입니다.

#Review #Robot Manipulation #Data Augmentation #Video Generation #Diffusion Models #Multi-View #Visual Identity Prompting #Action-Guided Segmentation #Visuomotor Policy

2026년 1월 8일

[논문리뷰] Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

본 논문은 2025 BEHAVIOR Challenge에서 1위를 차지한 비전-액션 정책을 제시하며, 50가지의 다양하고 장기적인 가정용 작업을 포토리얼리스틱 시뮬레이션 에서 수행하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA) models #Flow Matching #Embodied AI #Robot Manipulation #BEHAVIOR Challenge #Correlated Noise #Stage Tracking #Multi-Task Learning

2025년 12월 14일

[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.

#Review #Robot Manipulation #Video Generation Models #Vision-Language-Action (VLA)#Diffusion Transformer #Generalization #Action Prediction #Visual Imagination

2025년 12월 8일

[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

본 논문은 로봇 공학 분야에서 Diffusion Policy 와 같은 생성 모델이 겪는 높은 계산 비용, 노출 편향, 불안정한 추론 동역학 등의 문제를 해결하고, 로봇에게 물리적 추론 능력을 부여하는 것을 목표로 합니다.

#Review #Energy-Based Models (EBMs)#Diffusion Policy #Robotics #Behavior Cloning #Physical Reasoning #Uncertainty Modeling #Emergent Behavior #Robot Manipulation

2025년 11월 9일

[논문리뷰] Residual Off-Policy RL for Finetuning Behavior Cloning Policies

본 논문은 행동 복제(BC) 기반 정책의 한계(데이터 품질, 수동 데이터 수집, 성능 포화)와 실제 로봇에서의 직접적인 강화 학습(RL)의 어려움(샘플 비효율성, 안전성, 희소 보상)을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Behavior Cloning (BC)#Residual Learning #Off-Policy RL #Robot Manipulation #Real-World Robotics #High-DoF Systems #Sample Efficiency

2025년 9월 26일

[논문리뷰] Do You Need Proprioceptive States in Visuomotor Policies?

본 연구는 로봇의 시각-운동 정책(visuomotor policies)에서 고유 수용성 상태(proprioceptive states)의 필요성을 재평가하고, 기존 상태 기반 정책이 학습 궤적에 과적합되어 공간 일반화 능력이 저해되는 문제를 해결하고자 합니다.

#Review #Visuomotor Policies #Spatial Generalization #Imitation Learning #Proprioception #State-free Policies #Robot Manipulation #End-Effector Control #Data Efficiency

2025년 9월 24일

[논문리뷰] RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

본 논문은 대규모 로봇 조작 데이터 부족 문제와 시각적 역학 모델링의 한계로 인해 기존 Vision-Language-Action (VLA) 모델의 성능이 제약받는 문제를 해결하고자 합니다. 인간 시연 영상으로부터 조작 기술을 암묵적으로 전이하여 로봇 조작 성능을 개선하는 것을 궁극적인 목표로 합니다.

#Review #Vision-Language-Action (VLA) Model #Robot Manipulation #Human Demonstrations #Video Generative Pretraining #Ego-Centric Video #Trajectory Prediction #ActionVAE #Transformer

2025년 9월 19일

[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.

#Review #Vision-Language-Action #Embodied AI #Visual Foresight #Predictive Inverse Dynamics #Mixture-of-Transformer #Robot Manipulation #Multi-stage Training #Generalization

2025년 9월 10일

[논문리뷰] U-ARM : Ultra low-cost general teleoperation interface for robot manipulation

본 논문은 기존의 고비용 및 복잡한 엔지니어링 요구사항을 가진 로봇 텔레오퍼레이션 시스템의 한계를 극복하고, 대부분의 상용 로봇 팔과 호환되는 초저가, 사용자 친화적, 범용 리더-팔로워 텔레오퍼레이션 인터페이스 인 U-Arm을 개발하는 것을 목표로 합니다.

#Review #Teleoperation #Robot Manipulation #Low-Cost Hardware #3D Printing #Leader-Follower System #Data Collection #Robotics Interface #Open Source

2025년 9월 8일

[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.

#Review #Vision-Language-Action Models #Latent Actions #Robot Manipulation #Pre-training #Diffusion Models #Proprioceptive Feedback #Foundation Models

2025년 8월 2일

[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#3D Spatial Reasoning #Embodied AI #Foundation Models #Multimodal Fusion #Robot Manipulation #Modality Transferability #Action Grounding

2025년 10월 29일

[논문리뷰] RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation

본 논문은 로봇 정책의 평가에 대한 확장 가능하고 재현 가능한 벤치마킹 프레임워크인 RobotArena∞ 를 제안하여, 현실 세계 로봇 테스트의 비효율성(노동 집약적, 위험성, 낮은 재현성)과 기존 시뮬레이션 벤치마크의 한계(고립된 환경)를 극복하는 것을 목표로 합니다.

#Review #Robot Benchmarking #Real-to-Sim Translation #Vision-Language Models (VLMs)#Human Preference Learning #Domain Randomization #Robot Manipulation #Simulation Environments #Policy Evaluation

2025년 10월 28일

[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification

본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #VLA-0 #Zero Modification #Text-based Action Prediction #Robot Manipulation #Large Language Models #Fine-tuning #State-of-the-Art

2025년 10월 17일