[논문리뷰] GEM: Generative Supervision Helps Embodied Intelligence본 논문은 현재의 Embodied VLM들이 고수준의 언어적 추론에는 능숙하지만, 실제 물리 환경에서 로봇을 제어하기 위한 미세한 공간적 구조와 물리적 인지 능력이 결합되지 못하는 한계를 해결하고자 합니다.#Review#Embodied Intelligence#Vision-Language Models#Generative Supervision#Depth Map Prediction#Diffusion Transformer#Robot Manipulation#Spatiotemporal Planning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation본 논문은 프레임 단위로만 조건을 부여하는 기존 VLA 모델들이 부분 관측성(Partial Observability) 하에서 발생하는 짧은 기간의 의도 모호성 문제를 해결하지 못한다는 점을 지적합니다.#Review#Vision-Language-Action (VLA)#Robot Manipulation#AliasBench#Short-Horizon Intent#Imitation Learning#Inter-chunk Consistency#Partial Observability2026년 5월 14일댓글 수 로딩 중
[논문리뷰] FrameSkip: Learning from Fewer but More Informative Frames in VLA Training본 논문은 기존 VLA 모델 학습 과정에서 무분별하게 모든 프레임을 동일한 비중으로 사용하는 'Temporal supervision imbalance' 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Robot Manipulation#Frame Selection#Temporal Supervision#Data Curation#Policy Learning#Embodied AI2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Real-Time Robotics#Diffusion Transformer#Flow Matching#Asynchronous Execution#Robot Manipulation#Pre-training#Catastrophic Forgetting2026년 2월 15일댓글 수 로딩 중
[논문리뷰] BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action QueriesVision-Language-Action (VLA) 모델이 새로운 지시나 복잡한 다중 작업 시나리오에서 일반화하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action Models#Bayesian Decomposition#Latent Action Queries#Information Collapse#OOD Generalization#Robot Manipulation#Pointwise Mutual Information2026년 1월 22일댓글 수 로딩 중
[논문리뷰] RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation로봇 조작 데이터 수집의 어려움으로 인한 데이터 부족 및 다양성 한계를 극복하고, 기존 생성 모델이 간과했던 멀티-뷰(multi-view) 및 시간적 일관성(temporal coherence) 문제를 해결하여 로봇 정책 훈련에 필요한 고품질의 증강 데이터를 생성하는 것이 목표입니다.#Review#Robot Manipulation#Data Augmentation#Video Generation#Diffusion Models#Multi-View#Visual Identity Prompting#Action-Guided Segmentation#Visuomotor Policy2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge본 논문은 2025 BEHAVIOR Challenge에서 1위를 차지한 비전-액션 정책을 제시하며, 50가지의 다양하고 장기적인 가정용 작업을 포토리얼리스틱 시뮬레이션 에서 수행하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA) models#Flow Matching#Embodied AI#Robot Manipulation#BEHAVIOR Challenge#Correlated Noise#Stage Tracking#Multi-Task Learning2025년 12월 14일댓글 수 로딩 중
[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.#Review#Robot Manipulation#Video Generation Models#Vision-Language-Action (VLA)#Diffusion Transformer#Generalization#Action Prediction#Visual Imagination2025년 12월 8일댓글 수 로딩 중
[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities본 논문은 로봇 공학 분야에서 Diffusion Policy 와 같은 생성 모델이 겪는 높은 계산 비용, 노출 편향, 불안정한 추론 동역학 등의 문제를 해결하고, 로봇에게 물리적 추론 능력을 부여하는 것을 목표로 합니다.#Review#Energy-Based Models (EBMs)#Diffusion Policy#Robotics#Behavior Cloning#Physical Reasoning#Uncertainty Modeling#Emergent Behavior#Robot Manipulation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Residual Off-Policy RL for Finetuning Behavior Cloning Policies본 논문은 행동 복제(BC) 기반 정책의 한계(데이터 품질, 수동 데이터 수집, 성능 포화)와 실제 로봇에서의 직접적인 강화 학습(RL)의 어려움(샘플 비효율성, 안전성, 희소 보상)을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Behavior Cloning (BC)#Residual Learning#Off-Policy RL#Robot Manipulation#Real-World Robotics#High-DoF Systems#Sample Efficiency2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Do You Need Proprioceptive States in Visuomotor Policies?본 연구는 로봇의 시각-운동 정책(visuomotor policies)에서 고유 수용성 상태(proprioceptive states)의 필요성을 재평가하고, 기존 상태 기반 정책이 학습 궤적에 과적합되어 공간 일반화 능력이 저해되는 문제를 해결하고자 합니다.#Review#Visuomotor Policies#Spatial Generalization#Imitation Learning#Proprioception#State-free Policies#Robot Manipulation#End-Effector Control#Data Efficiency2025년 9월 24일댓글 수 로딩 중
[논문리뷰] RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation본 논문은 대규모 로봇 조작 데이터 부족 문제와 시각적 역학 모델링의 한계로 인해 기존 Vision-Language-Action (VLA) 모델의 성능이 제약받는 문제를 해결하고자 합니다. 인간 시연 영상으로부터 조작 기술을 암묵적으로 전이하여 로봇 조작 성능을 개선하는 것을 궁극적인 목표로 합니다.#Review#Vision-Language-Action (VLA) Model#Robot Manipulation#Human Demonstrations#Video Generative Pretraining#Ego-Centric Video#Trajectory Prediction#ActionVAE#Transformer2025년 9월 19일댓글 수 로딩 중
[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.#Review#Vision-Language-Action#Embodied AI#Visual Foresight#Predictive Inverse Dynamics#Mixture-of-Transformer#Robot Manipulation#Multi-stage Training#Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] U-ARM : Ultra low-cost general teleoperation interface for robot manipulation본 논문은 기존의 고비용 및 복잡한 엔지니어링 요구사항을 가진 로봇 텔레오퍼레이션 시스템의 한계를 극복하고, 대부분의 상용 로봇 팔과 호환되는 초저가, 사용자 친화적, 범용 리더-팔로워 텔레오퍼레이션 인터페이스 인 U-Arm을 개발하는 것을 목표로 합니다.#Review#Teleoperation#Robot Manipulation#Low-Cost Hardware#3D Printing#Leader-Follower System#Data Collection#Robotics Interface#Open Source2025년 9월 8일댓글 수 로딩 중
[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.#Review#Vision-Language-Action Models#Latent Actions#Robot Manipulation#Pre-training#Diffusion Models#Proprioceptive Feedback#Foundation Models2025년 8월 2일댓글 수 로딩 중
[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#3D Spatial Reasoning#Embodied AI#Foundation Models#Multimodal Fusion#Robot Manipulation#Modality Transferability#Action Grounding2025년 10월 29일댓글 수 로딩 중
[논문리뷰] RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation본 논문은 로봇 정책의 평가에 대한 확장 가능하고 재현 가능한 벤치마킹 프레임워크인 RobotArena∞ 를 제안하여, 현실 세계 로봇 테스트의 비효율성(노동 집약적, 위험성, 낮은 재현성)과 기존 시뮬레이션 벤치마크의 한계(고립된 환경)를 극복하는 것을 목표로 합니다.#Review#Robot Benchmarking#Real-to-Sim Translation#Vision-Language Models (VLMs)#Human Preference Learning#Domain Randomization#Robot Manipulation#Simulation Environments#Policy Evaluation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#VLA-0#Zero Modification#Text-based Action Prediction#Robot Manipulation#Large Language Models#Fine-tuning#State-of-the-Art2025년 10월 17일댓글 수 로딩 중