#Embodied AI

118개의 포스트

[논문리뷰] BadWAM: When World-Action Models Dream Right but Act Wrong

본 논문은 WAM이 미래 상태를 예측하는 능력을 갖추고 있음에도 불구하고, 이러한 결합 구조가 오히려 새로운 형태의 보안 취약점이 될 수 있음을 지적합니다.

#Review #World-Action Models #Embodied AI #Adversarial Attack #World-Action Drift #Closed-Loop Execution #Robotics

2026년 7월 16일

[논문리뷰] ABot-N1: Toward a General Visual Language Navigation Foundation Model

본 논문은 기존의 단일 통합 정책(Monolithic Policy)이 가진 navigation의 한계점과 확장성 문제를 해결하기 위해 ABot-N1을 제안합니다 .

#Review #Visual Language Navigation #Foundation Model #Slow-Fast Architecture #Chain-of-Thought #Pixel Goal #Embodied AI #Cross-Task Generalization

2026년 7월 13일

[논문리뷰] Imagined Rollouts are Kinematic, Not Dynamic: A Diagnosis of Long-Horizon World-Model Failure

본 논문은 현대의 World Models가 장기 예측에서 겪는 성능 저하가 단순히 '오차 누적(compounding error)'의 결과가 아니라, 모델이 물리적 역학(dynamics)을 배우지 못하고 구조적으로 운동학(kinematics) 수준에서만 작동하기 때문임을 증명합니다.

#Review #World Models #Kinematic Fallback #iKCE #Long-Horizon Failure #Embodied AI #Dynamic Imagination

2026년 7월 8일

[논문리뷰] RynnWorld-4D: 4D Embodied World Models for Robotic Manipulation

기존의 로봇 조작을 위한 월드 모델들은 주로 2D 픽셀 기반의 비디오 생성에 의존하고 있어, 실제 로봇 시스템이 요구하는 정밀한 3D 공간 관계나 물리적 일관성을 확보하는 데 한계가 있습니다.

#Review #4D Embodied World Models #Robotic Manipulation #Generative Video Models #RGB-DF Representation #Flow Matching #Joint Cross-Modal Attention #Embodied AI

2026년 7월 7일

[논문리뷰] GigaWorld-1: A Roadmap to Build World Models for Robot Policy Evaluation

로봇 파운데이션 모델의 발전에도 불구하고, 정책 성능을 평가하기 위한 물리적 로봇 실행은 여전히 높은 비용과 긴 시간이 소요되는 핵심 병목 구간입니다.

#Review #World Model #Robot Policy Evaluation #WMBench #Embodied AI #Video Generation #Policy Rollout

2026년 7월 6일

[논문리뷰] EVA-Client: A Unified Data Collection, Inference, and Deployment Framework for Embodied Policies on Real Robots

본 논문은 최신 Vision-Language-Action(VLA) 및 World-Action 모델(WAM)의 학습 생태계는 성숙해진 반면, 학습된 모델을 실제 로봇에 배포하고 평가하는 과정은 여전히 파편화된 스크립트에 의존하고 있다는 점을 해결하고자 합니다 .

#Review #Embodied AI #Robot Manipulation #Deployment Framework #Inference Strategies #Data Collection #Real-Robot Evaluation #VLA Models

2026년 7월 6일

[논문리뷰] Embodied.cpp: A Portable Inference Runtime of Embodied AI Models on Heterogeneous Robots

본 논문은 현대의 Embodied AI 모델들이 요구하는 복잡한 실행 조건을 기존의 범용 LLM/VLM 추론 런타임이 충족하지 못하는 문제를 해결하고자 합니다.

#Review #Embodied AI #Inference Runtime #VLA #WAM #C++#Heterogeneous Computing #Closed-loop Control

2026년 7월 5일

[논문리뷰] Learning to Move Before Learning to Do: Task-Agnostic pretraining for VLAs

본 논문은 현재 VLA 학습이 겪고 있는 데이터 부족 문제를 해결하기 위해, 대규모 Expert Demonstration 의존성을 탈피하는 새로운 사전 학습 프레임워크를 제안합니다. 기존의 VLA 모델은 고가의 인간 조작 데이터에 과도하게 의존하며, 이는 데이터 수집의 확장성을 저해하는 근본적인 병목 현상으로 작용합니다.

#Review #Vision-Language-Action Models #Task-Agnostic Pretraining #Embodied AI #Inverse Dynamics #Physical Grounding #Robotic Manipulation

2026년 7월 2일

[논문리뷰] ASPIRE: Agentic /Skills Discovery for Robotics

본 논문은 기존 로봇 제어 방식이 환경 변화나 실패 상황에서 경험을 누적하지 못하고 매번 초기화되는 문제를 해결하고자 합니다. 기존 연구(Baseline)는 태스크 단위의 coarse한 피드백에만 의존하여 실패 원인을 정확히 진단하기 어렵고, 발견된 해결책을 재사용할 수 없는 폐쇄적인 구조를 가집니다.

#Review #Robotics #Code-as-Policy #Continual Learning #Skill Library #Evolutionary Search #Embodied AI

2026년 7월 1일

[논문리뷰] The Surprising Effectiveness of Video Diffusion Models for Hand Motion Reconstruction

본 논문은 기존의 egocentric 4D 손 모션 재구성 방법론이 직면한 심각한 병목 현상을 해결하고자 합니다. 기존 방식들은 이미지 기반 탐지기(Detector)에 의존하거나, 제한된 데이터로 학습된 시간적 모듈을 사용하여 심한 은닉 상황에서 성능이 저하되는 한계가 있습니다 .

#Review #Video Diffusion Models #Hand Motion Reconstruction #Egocentric Video #4D Reconstruction #Embodied AI #Occlusion Reasoning

2026년 6월 29일

[논문리뷰] EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies

본 논문은 기존의 로봇 조작 벤치마크들이 단일 성공률(Success Rate) 스칼라 값에 의존하여 모델의 진정한 역량을 가리고 있다는 점을 해결하고자 합니다. 현재의 Generalist Manipulation 모델들은 유사한 성공률을 보고하지만, 실제 배포 시 성능이 크게 달라지는 구조적 한계를 가지고 있습니다.

#Review #EBench #Generalist Mobile Manipulation #VLA (Vision-Language-Action)#Capability Profiling #Embodied AI #Benchmark #Generalization

2026년 6월 24일

[논문리뷰] ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

기존의 WAM은 미래 비디오 생성에 의존하여 로봇 행동을 추론하지만, 여기에는 세 가지 심각한 한계가 존재합니다. 우선, 다수의 프레임에 대한 시공간 토큰을 처리해야 하므로 Inference 비용이 극도로 높습니다.

#Review #World Action Models #Image Editing #Robot Manipulation #Flow Matching #Efficient Inference #Embodied AI

2026년 6월 18일

[논문리뷰] HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Embodied foundation model 학습의 핵심 병목 현상은 정밀하게 주석 처리된 고품질 로봇 데이터의 부족과 데이터 수집의 높은 비용입니다.

#Review #Embodied AI #Egocentric Video #Pretraining #Robot Learning #Scaling Laws #Generalization #World-Action Models

2026년 6월 18일

[논문리뷰] EgoCS-400K: An Egocentric Gameplay Dataset for World Models

본 논문은 대규모 상호작용 세계 모델(Interactive World Models) 학습을 위한 고품질의 영상-액션-언어 데이터셋 부족 문제를 해결하고자 한다.

#Review #World Models #Egocentric Video #Gaming Agent #Video Generation #Replay-grounded #Embodied AI

2026년 6월 16일

[논문리뷰] ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

기존의 인터랙티브 월드 모델은 주로 이동(locomotion)과 뷰포인트 제어에 집중되어 있어, 실질적인 객체 상호작용을 지원하지 못하는 한계가 있습니다 . 이러한 '네비게이션-상호작용 격차'는 크게 두 가지 병목 현상에서 기인합니다.

#Review #World Model #Interactive Generation #Action-Aware Memory #Chunk-Autoregressive #Video Diffusion #Embodied AI #Human-Object Interaction

2026년 6월 16일

[논문리뷰] ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining

본 논문은 일반 목적의 VLA 모델 학습 시 데이터의 양과 다양성을 확보하기 위해 로봇 데이터와 대규모 인간 egocentric 영상을 통합하고자 합니다. 기존의 VLA pretraining은 로봇 실습 데이터의 비용과 노동 집약적 수집 방식 때문에 규모 확장에 한계가 있습니다.

#Review #Vision-Language-Action Models #Robot Manipulation #Learning from Human Video #Embodied AI #Cross-Embodiment #Pseudo-Action Supervision #Data Heterogeneity

2026년 6월 16일

[논문리뷰] Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

본 연구는 파편화된 로봇 학습 시스템의 한계를 극복하고, 데이터 수집부터 실제 현장 배치(Deployment)까지를 아우르는 통합된 엔드투엔드 VLA 학습 스택을 구축하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied AI #Flow Matching #Robot Learning Stack #Proximalized Preference Optimization #UMI

2026년 6월 14일

[논문리뷰] LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories

본 연구는 기존의 General-purpose VLA 모델들이 정밀한 과학 실험실 환경에서의 특수성과 고도의 Domain-specific 작업 수행 능력 부족 문제를 해결하고자 합니다.

#Review #Vision-Language-Action #Robotics #Scientific Laboratory #Multimodal Learning #Embodied AI #Automation

2026년 6월 11일

[논문리뷰] WorldOlympiad: Can Your World Model Survive a Triathlon?

본 연구는 기존 세계 모델 평가 방식이 파편화되어 있고 실제 물리적 환경에서의 복합적인 능력을 충분히 측정하지 못한다는 문제의식에서 출발합니다. 현재 대부분의 연구는 특정 태스크에만 최적화되어 있어, 변화하는 환경에서의 일반화(Generalization) 성능이나 복잡한 인과 관계 이해도를 확인하기 어렵습니다.

#Review #World Models #Benchmarking #Embodied AI #Generalization #Multimodal Evaluation #Simulator

2026년 6월 9일

[논문리뷰] WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models

본 논문은 기존 비디오 생성 모델이 가진 정적인 생성 한계를 극복하고, 사용자가 직접 환경과 상호작용할 수 있는 능동적인 세계 모델 구축을 목표로 합니다.

#Review #World Models #Interactive Video Generation #Object Manipulation #Camera Navigation #Embodied AI

2026년 6월 8일

[논문리뷰] Robots Need More than VLA and World Models

본 논문은 현재 로봇 학습 분야가 VLA 모델의 스케일링에만 지나치게 의존하고 있으며, 이것만으로는 일반적인 로봇 지능(Generalist robot intelligence)을 달성할 수 없다고 지적한다.

#Review #Robotics #Vision-Language-Action Models #Physical Intelligence #Embodied AI #Grounding #Robot Learning #Data Engines

2026년 6월 7일

[논문리뷰] AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

기존의 interactive world model들은 주로 키보드/마우스 입력이나 단순한 텍스트 프롬프트에 의존하여, 인간의 실제 동작(full-body motion)에 기반한 자연스러운 상호작용을 반영하지 못하는 한계가 있습니다.

#Review #Embodied AI #Egocentric World Simulation #World Customization #Human Action Control #Anchor-View Priors #Video Generation

2026년 6월 7일

[논문리뷰] World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis

본 논문은 기존의 WAM (World-Action Model)과 VLA (Vision-Language-Action Model)가 가진 한계를 극복하기 위해 제안되었다.

#Review #Embodied AI #World Modeling #Language Reasoning #Action Synthesis #Autoregressive Transformer #Test-Time Scaling #Cross-Embodiment

2026년 6월 4일

[논문리뷰] Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

본 논문은 Foundation Models가 수동적인 시각적 이해를 넘어, 능동적인 탐색을 통해 3D 공간에서 목표 시점을 정확히 재현할 수 있는지 질문합니다 . 기존 연구들은 주로 사전에 수집된 데이터에 의존하여 '무엇이 어디에 있는가'를 묻는 정적인 공간 지능에 집중해 왔습니다.

#Review #Target Viewpoint Reproduction #TVRBench #Active Exploration #Foundation Models #Spatial Intelligence #Embodied AI #GRPO #SFT

2026년 6월 1일

[논문리뷰] Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems

본 논문은 블랙박스 형태의 Physical AI 모델이 생성한 행동이 물리적 실행으로 이어지기 전, 적절한 검증이 이루어지지 않아 발생하는 '행동 승인 공백(Action-Authorization Gap)' 문제를 다룹니다.

#Review #Physical AI #Runtime Guardrails #Embodied AI #Vision-Language-Action Models #Silent Failures #Runtime Assurance

2026년 6월 1일

[논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

본 논문은 기존 VLM 벤치마크가 현실의 물리적 환경에서 발생하는 다양한 시각적 스트레스를 제대로 반영하지 못한다는 점을 해결하고자 합니다.

#Review #Vision-Language Models #Embodied AI #Robustness #Physical Visual Stress #Benchmark #Inverse Graphics #Test-Time Rectification

2026년 6월 1일

[논문리뷰] RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models

본 논문은 현대의 VLA 모델들이 학습 과정에서 진정한 의미적 이해보다는 시각적 혹은 지시어-행동 간의 통계적 Shortcut에 의존하는 문제를 해결하고자 한다 . 저자들은 기존의 로봇 학습 벤치마크들이 단순한 형태의 명령어를 사용하여 모델의 진정한 의미론적 추론 능력을 검증하지 못하고 있다고 지적한다.

#Review #Vision-Language-Action Models #Embodied AI #Semantic Grounding #Action Prediction #Robotics Benchmark #Instruction-following

2026년 6월 1일

[논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft

본 논문은 MLLM 에이전트의 진정한 오픈 월드 탐색 능력을 객관적으로 평가할 수 있는 통제된 프레임워크가 부족하다는 점을 해결하고자 한다. 기존의 게임 기반 벤치마크들은 특정 게임 메커니즘에 지나치게 의존하거나, 상호작용의 범위가 단기적인 작업에 국한되어 에이전트의 장기적인 탐색 능력을 측정하기 어렵다는 한계가 있다 .

#Review #MLLM Agents #Open-World Exploration #Minecraft #Embodied AI #Benchmark #Task Synthesis #Multi-Agent Workflow

2026년 6월 1일

[논문리뷰] Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

본 논문은 기존의 spatial reasoning 벤치마크들이 시각적 관측이 항상 충분하고 신뢰 가능하다는 비현실적인 가정에 의존하고 있다는 점을 지적합니다.

#Review #Vision-Language Models #Spatial Reasoning #Observational Uncertainty #Abstention #Occlusion #Perspective Ambiguity #Embodied AI

2026년 5월 31일

[논문리뷰] Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

본 논문은 범용 VLA 모델이 실환경 배포 시 겪는 실행 실패 문제를 실시간으로 감지하기 위한 효율적인 방법을 모색합니다. 기존의 방법론들은 고가의 단계별 실패 주석이 필요하거나, 액션 재샘플링 및 외부 VLM 모델 사용에 따른 높은 계산 오버헤드로 인해 실시간 배포가 어렵다는 한계가 있습니다.

#Review #Vision-Language-Action (VLA)#Failure Detection #Coarsely Supervised Learning #Contrastive Learning #Conformal Prediction #Embodied AI

2026년 5월 31일

[논문리뷰] SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

본 논문은 현재 Spatial Foundation Models (SFMs)이 standard dataset에서 인상적인 성능을 보여주지만, 다양한 downstream task, 임의의 viewpoint, 변화하는 scene domain, 다양한 input density, 그리고 특정 hardware constraint에 걸쳐 robust하게 generalizing할 수 있는 all-round player인지에 대한 근본적인…

#Review #Spatial Foundation Models #3D Reconstruction #Benchmark #Domain Generalization #Input Density #Embodied AI

2026년 5월 26일

[논문리뷰] StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

본 논문은 기존 VLA 모델들이 훈련 데이터에 포함되지 않은 실세계의 다양한 시각적 노이즈(센서 노이즈, 모션 블러 등)에 매우 취약하다는 점을 지적합니다. 현재의 VLA 모델은 주로 깨끗한 환경에서만 평가되며, 실제 배포 시 시각적 왜곡이 발생하면 성능이 급격히 저하되는 'robustness gap'을 보입니다.

#Review #Vision-Language-Action Models #Information Bottleneck #Robustness #Modality Alignment #Embodied AI #Adapter Design

2026년 5월 18일

[논문리뷰] FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

본 논문은 기존 VLA 모델 학습 과정에서 무분별하게 모든 프레임을 동일한 비중으로 사용하는 'Temporal supervision imbalance' 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Robot Manipulation #Frame Selection #Temporal Supervision #Data Curation #Policy Learning #Embodied AI

2026년 5월 13일

[논문리뷰] Continual Harness: Online Adaptation for Self-Improving Foundation Agents

본 논문은 embodied agent가 복잡하고 긴 호흡의 환경에서 명확한 도메인 스캐폴딩 없이도 자율적으로 학습하고 진화할 수 있는 체계를 구축하고자 합니다 .

#Review #Foundation Agents #Continual Harness #Online Adaptation #Embodied AI #In-Context Learning #Reset-Free Training #Process Reward Models

2026년 5월 12일

[논문리뷰] Audio-Visual Intelligence in Large Foundation Models

본 논문은 대규모 파운데이션 모델 시대에 멀티모달 학습이 필수적임에도 불구하고, 시청각 데이터 간의 정렬, Taxonomy의 불일치, 그리고 평가 방법론의 파편화로 인해 체계적인 연구가 어렵다는 문제를 해결하고자 합니다.

#Review #Audio-Visual Intelligence #Foundation Models #Multimodal Fusion #Embodied AI #Cross-modal Generation

2026년 5월 7일

[논문리뷰] ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

본 논문은 기존의 UAV SAR 연구들이 전통적인 비전 및 경로 계획 방식에 국한되어 있어, 복잡한 환경에서의 자율적 의사결정 능력을 평가할 통합된 벤치마크가 부족하다는 점을 지적합니다.

#Review #Embodied AI #Search and Rescue (SAR)#UAV #Multimodal Large Language Models (MLLMs)#Simulation Platform #Benchmark

2026년 5월 5일

[논문리뷰] Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

본 논문은 기존 Unified World Model들이 2D 픽셀 공간에만 국한되어 기하학적 구조에 대한 이해가 부족하며, 고차원 비디오 생성과 저차원 행동 예측 사이의 효율적인 균형을 맞추지 못한다는 문제를 해결하고자 한다.

#Review #Embodied AI #World Models #Diffusion Transformer #3D Reconstruction #Robotic Manipulation #Asynchronous Denoising #Unified Modeling

2026년 4월 29일

[논문리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

본 논문은 로봇 조작 과업에서 기존 VLM(Vision-Language Model) 기반 가치 함수가 가진 시간적 역학(Temporal Dynamics) 이해 부족 문제를 해결하고자 합니다.

#Review #Robot Reinforcement Learning #Video-Generative Model #Value Function #Embodied AI #Future Prediction #Spatiotemporal Priors

2026년 4월 9일

[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.

#Review #Vision-Language Models #Embodied AI #Long-Horizon Planning #3D Open-World Benchmark #Automated Evaluation

2026년 4월 9일

[논문리뷰] The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

본 논문은 현대의 언어 기반 모델들이 여전히 토큰 단위의 명시적인 생성 방식에 의존하고 있어, 이로 인한 구조적 한계에 직면해 있다는 점을 지적한다.

#Review #Latent Space #Language-based Models #Implicit Reasoning #Multimodal Computation #Embodied AI #Latent Representation #Machine-native

2026년 4월 2일

[논문리뷰] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

본 연구는 embodied 환경에서 시점 변화, 거리, 폐색(Occlusion)으로 인해 발생하는 객체 묘사의 의미론적 불일치(Semantic Inconsistency) 문제를 해결하는 것을 목적으로 합니다.

#Review #Embodied AI #Vision-Language Models #Episodic Memory #Semantic Consistency #Object Captioning #Data Association

2026년 4월 2일

[논문리뷰] Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Embodied AI 분야에서 로봇 trajectory를 세계 환경 내에서 roll out하는 능력은 demonstration 확장, policy evaluation 및 reinforcement learning에 매우 중요합니다.

#Review #Embodied AI #4D Generative World Model #Spatiotemporal-aware #Kinematic Control #Robotic Simulation #Diffusion Transformer #Pointmap

2026년 3월 17일

[논문리뷰] MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

본 논문은 여러 embodied AI 에이전트 로부터 동시에 수집된 다중의 장기 에고센트릭 비디오 를 이해하고 추론하는 새로운 문제를 해결하는 것을 목표로 합니다.

#Review #Egocentric Vision #Multi-Agent Systems #Video Question Answering #Long-Horizon Reasoning #Embodied AI #Benchmark Dataset #Shared Memory #Dynamic Retrieval

2026년 3월 11일

[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

본 논문은 플로우 기반 Vision-Language-Action (VLA) 모델이 온라인 강화 학습(RL)에서 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 다단계 샘플링 시 계산하기 어려운 우도(likelihood) 문제와, 미세 조정 후 행동 다양성이 부족하여 사소한 편차에도 취약해지는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Flow-based Models #Vision-Language-Action (VLA) Models #Online Learning #Stochastic Differential Equation (SDE)#Contrastive Learning #Embodied AI #Robotics

2026년 3월 8일

[논문리뷰] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

본 논문은 embodied task를 위해 탐색 과정과 동시에 3D 장면을 실시간으로 이해하는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Gaussian Splatting #Open-Vocabulary #Embodied AI #Online Reconstruction #Semantic 3D Scene Understanding #CLIP Features #Feed-Forward Neural Networks

2026년 3월 4일

[논문리뷰] EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

본 논문은 기존의 고비용 및 스튜디오 의존적인 모션 캡처 시스템의 한계를 극복하고, 일상 환경에서 인간의 행동과 3D 장면 정보를 담은 고품질의 4D 인간-장면 데이터 를 대규모로 수집하는 것을 목표로 합니다.

#Review #Embodied AI #4D Reconstruction #Human-Scene Interaction #iPhone RGB-D #In-the-Wild Mocap #Physics-based Animation #Humanoid Robot Control #Low-Cost Data Collection

2026년 2월 26일

[논문리뷰] Solaris: Building a Multiplayer Video World Model in Minecraft

기존 단일 에이전트 비디오 월드 모델의 한계를 극복하고, Minecraft 와 같은 복잡한 3D 환경에서 일관된 다중 시점 관찰을 시뮬레이션할 수 있는 다중 에이전트 비디오 월드 모델 (Solaris) 을 구축하는 것이 목표입니다.

#Review #Multi-agent World Models #Video Diffusion Models #Minecraft #Self Forcing #Checkpointed Self Forcing #Multi-view Consistency #Data Collection #Embodied AI

2026년 2월 25일

[논문리뷰] From Perception to Action: An Interactive Benchmark for Vision Reasoning

기존 VLM 평가가 구조 불가지론적이고 단일 턴 질의응답(VQA)에 치중하여 동적 환경에서 기하학, 접촉, 지지 관계가 행동 가능성을 어떻게 제약하는지에 대한 에이전트의 추론 능력을 평가하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models #Physical Reasoning #Interactive AI #3D Benchmark #Mechanical Puzzles #Spatial Packing #Embodied AI

2026년 2월 24일

[논문리뷰] BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

기존 로봇 조작 벤치마크가 주로 단일 팔 조작에 국한되어 양팔 조작에 필수적인 공간-시간적 조정, 동적 역할 할당, 자가 충돌 방지 등의 복잡성을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Bimanual Manipulation #MLLMs #Robotics Benchmark #Spatial Reasoning #Action Planning #End-Effector Control #Embodied AI #Multimodal LLMs

2026년 2월 18일

[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.

#Review #Robotic Manipulation #Vision-Language-Action (VLA)#Foundation Models #Action Manifold Learning #Diffusion Transformers #Data Curation #Embodied AI

2026년 2월 15일

[논문리뷰] Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

본 논문은 실세계 환경에서 Beyond-the-View Navigation (BVN) 이 직면한 과제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Navigation #Beyond-the-View Navigation #Video Generation Models #Sparse Video Generation #Diffusion Models #Embodied AI #Real-world Navigation #Long-horizon Planning

2026년 2월 12일

[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI

본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.

#Review #Multimodal Critics #Physical AI #Reinforcement Learning #Self-Referential Finetuning #Evaluation Models #Causal Reasoning #Embodied AI #RLVR

2026년 2월 11일

[논문리뷰] SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

본 논문은 Embodied AI 의 고비용 및 안전 문제로 인한 데이터 수집의 한계를 극복하고, 기존 장면 생성 시스템의 물리적 비유효성 및 비현실성 문제를 해결하고자 합니다.

#Review #Embodied AI #3D Scene Generation #Agentic Framework #Simulation-Ready Environments #Robot Policy Learning #Large Language Models (LLM)#Physics Simulation #Data Augmentation

2026년 2월 10일

[논문리뷰] BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

본 논문은 복잡하고 장기적인 로봇 조작 작업을 위해 언어적 계획, 시각적 예측, 행동 생성 을 통합하는 통일된 프레임워크를 개발하는 것을 목표로 합니다. 기존 Vision-Language-Action (VLA) 모델들이 이러한 기능들을 분리된 모듈로 처리하여 최적의 성능을 달성하지 못하는 한계를 극복하고자 합니다.

#Review #Long-horizon manipulation #Embodied AI #Vision-Language-Action (VLA)#Interleaved planning #Visual forecasting #Residual Flow Guidance #Multimodal learning

2026년 2월 10일

[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

현재 단편적인 방식으로 세계 지식을 주입하는 AI 연구의 한계를 극복하고, 통합적이고 총체적인 세계 이해 를 가능하게 하는 세계 모델(World Models) 을 위한 통합 설계 프레임워크 를 제안하는 것이 목표입니다.

#Review #World Models #Unified Framework #Multimodal AI #Embodied AI #Physical Understanding #Long-term Consistency #AI Agents #Generative Models

2026년 2월 3일

[논문리뷰] PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

본 논문은 기존의 스트리밍 3D 재구성 방식이 고품질 렌더링과 정확한 기하학적 구조를 동시에 달성하기 어렵고, 구조적 중복성이 높아 확장성이 제한되는 문제를 해결하고자 합니다.

#Review #Streaming 3D Reconstruction #Hybrid Representation #Triangle Primitives #Neural Gaussians #Geometric Accuracy #High-Fidelity Rendering #Embodied AI #Monocular SLAM

2026년 1월 29일

[논문리뷰] Advancing Open-source World Models

본 논문은 기존 비디오 생성 모델의 한계(데이터 희소성, 장기 일관성 부족, 실시간 상호작용의 어려움, 독점적 솔루션)를 극복하고, 가상 세계의 역학을 학습하며 실시간으로 렌더링할 수 있는 오픈 소스 세계 모델(world model) 인 LingBot-World를 개발하는 것을 목표로 합니다.

#Review #World Models #Open-source AI #Video Generation #Real-time Simulation #Long-term Memory #Action-Conditioned Learning #Generative Models #Embodied AI

2026년 1월 28일

[논문리뷰] TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

표준 Vision-Language-Action (VLA) 모델이 로봇 제어를 위해 VLM 백본을 미세 조정할 때 발생하는 '파멸적 망각(catastrophic forgetting)' 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action (VLA)#Embodied AI #Robotics #Catastrophic Forgetting #Asymmetric Mixture-of-Transformers (AsyMoT)#Generalist VLM #Specialist VLM #Flow-Matching

2026년 1월 25일

[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind

본 논문은 기존 embodied AI foundation model의 2D pixel 기반 grounding 및 sparse temporal supervision의 한계를 극복하고, 정확한 3D 공간 추론(Precise 3D Spatial Reasoning) 과 밀집 시간 가치 예측(Dense Temporal Value Estimation) 능력을 통해 로봇의 물리적 상호작용 신뢰성과 실행 인지도를 향상시키는 것을 목표로…

#Review #Embodied AI #Foundation Model #3D Spatial Reasoning #Temporal Value Estimation #Robotics #Manipulation #Multimodal Learning

2026년 1월 21일

[논문리뷰] Rethinking Video Generation Model for the Embodied World

본 연구는 로봇 상호작용을 정확하게 반영하는 고품질 비디오 생성의 어려움을 해결하고, 표준화된 벤치마크 부족으로 인한 공정한 비교 및 발전의 한계를 극복하는 것을 목표로 합니다. 궁극적으로 로봇 학습 및 행동 예측을 위한 비디오 생성 모델의 실제 적용 가능성을 높이고, 신체화된 AI의 발전을 가속화하고자 합니다.

#Review #Video Generation #Embodied AI #Robotics Benchmark #RBench #Robotics Dataset #RoVid-X #Physical Plausibility #Task Completion

2026년 1월 21일

[논문리뷰] FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Vision-and-Language Navigation (VLN)에서 기존 Chain-of-Thought (CoT) 추론 방식의 한계, 즉 공간 접지 부족, 희소한 주석에 대한 과적합, 또는 상상된 시각적 관찰 생성으로 인한 심각한 토큰 팽창 문제로 실시간 내비게이션이 비실용적인 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Navigation #Chain-of-Thought Reasoning #Multimodal AI #Implicit Reasoning #Visual AutoRegressor #Embodied AI #Long-Horizon Planning

2026년 1월 20일

[논문리뷰] Aligning Agentic World Models via Knowledgeable Experience Learning

본 논문은 대규모 언어 모델(LLMs) 기반 에이전트 월드 모델이 겪는 '물리적 환각(physical hallucinations)' 문제를 해결하고자 합니다.

#Review #Agentic AI #World Models #Experience Learning #LLMs #Physical Hallucinations #Embodied AI #Predictive Coding #Knowledge Repository

2026년 1월 20일

[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

본 논문은 복잡한 시각-언어-액션 (VLA) 태스크에서 기존 추론 VLA 모델들이 긴 chain-of-thought (CoT) 추론 과정으로 인해 겪는 높은 추론 지연 시간(inference latency) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action #Embodied AI #Latent Planning #Chain-of-Thought #Distillation #Inference Efficiency #Robotic Manipulation #Preference Learning

2026년 1월 14일

[논문리뷰] NitroGen: An Open Foundation Model for Generalist Gaming Agents

논문은 대규모의 다양하고 레이블링된 행동 데이터 부족으로 인해 지연되었던, 일반화된 행동을 할 수 있는 embodied agent 개발을 목표로 합니다.

#Review #Generalist Agents #Foundation Models #Behavior Cloning #Video Games #Action Extraction #Multi-game #Embodied AI

2026년 1월 6일

[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

본 논문은 자율 시스템을 위한 진정한 공간 지능(Spatial Intelligence) 을 구축하기 위해 다중 모달(multi-modal) 온보드 센서 데이터 사전 훈련에 대한 포괄적인 로드맵을 제시합니다.

#Review #Multi-modal Pre-training #Autonomous Systems #Spatial Intelligence #Foundation Models #LiDAR-Camera Fusion #Self-Supervised Learning #Generative World Models #Embodied AI

2025년 12월 31일

[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

이 논문은 에이전트가 모호한 자연어 지시를 받아 복잡하고 장거리인 환경에서 특정 객체 인스턴스를 찾아내는 Interactive Instance Object Navigation (IION) 태스크를 도입합니다.

#Review #Embodied AI #Vision and Language Navigation #Instance Object Navigation #Active Dialog #Large Language Models (LLMs)#Benchmark #Human-Robot Interaction

2025년 12월 29일

[논문리뷰] QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

본 논문은 최신 Vision-Language Models (VLMs) 이 물리적 특성을 정량적으로 추론하는 능력에 대한 불확실성을 해결하고자 합니다.

#Review #Vision-Language Models #Physical Reasoning #Quantitative Benchmark #Kinematics #Mean Relative Accuracy #Video-Text #Embodied AI

2025년 12월 23일

[논문리뷰] PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

본 연구는 시점 불일치 문제로 인해 로봇 일반화에 한계가 있는 기존 VLM(Vision-Language Model)의 단점을 해결하고자 합니다.

#Review #Egocentric Data #Physical Intelligence #VLM #Robot Control #Embodied AI #VQA Supervision #Human-Robot Interaction #Zero-shot Transfer

2025년 12월 21일

[논문리뷰] Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection

본 논문은 정적인 이미지에 국한된 기존 Vision-Language Models (VLMs) 의 Visual Question Answering (VQA) 한계를 극복하고, 앰뷸러토리 비전 능력을 갖춘 에이전트가 더 유익한 시점을 능동적으로 선택하도록 학습시키는 것을 목표로 합니다.

#Review #Active Perception #Vision-Language Models (VLMs)#Embodied AI #View Selection #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Visual Question Answering (VQA)#3D Environments

2025년 12월 15일

[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge

2025 BEHAVIOR Challenge에서 물리적 에이전트 가 시뮬레이션 환경에서 장기적인 작업을 성공적으로 수행하는 문제에 집중하며, 기존 Vision-Language-Action (VLA) 모델 의 한계를 극복하는 것을 목표로 합니다.

#Review #Embodied AI #Long-horizon Tasks #Vision-Language-Action Models (VLA)#BEHAVIOR Challenge #Offline RL #Pre-training #Rejection Sampling Fine-Tuning (RFT)#Robotics

2025년 12월 15일

[논문리뷰] Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

본 논문은 2025 BEHAVIOR Challenge에서 1위를 차지한 비전-액션 정책을 제시하며, 50가지의 다양하고 장기적인 가정용 작업을 포토리얼리스틱 시뮬레이션 에서 수행하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA) models #Flow Matching #Embodied AI #Robot Manipulation #BEHAVIOR Challenge #Correlated Noise #Stage Tracking #Multi-Task Learning

2025년 12월 14일

[논문리뷰] LEO-RobotAgent: A General-purpose Robotic Agent for Language-driven Embodied Operator

본 논문은 다양한 유형의 로봇이 예측 불가능한 복잡한 작업을 수행할 수 있도록 하는 일반 목적의 언어 기반 지능형 로봇 에이전트 프레임워크인 LEO-RobotAgent를 제안합니다.

#Review #Robotic Agent #Large Language Models (LLMs)#Embodied AI #Task Planning #Human-Robot Interaction #General-purpose Robotics #ROS

2025년 12월 14일

[논문리뷰] SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization

기존 LVLM(Large Vision-Language Models) 기반의 VLN(Vision-Language Navigation) 에이전트가 겪는 지각, 추론, 계획 오류로 인한 낮은 내비게이션 성능 문제를 해결하고자 합니다.

#Review #Vision-Language Navigation #Large Vision-Language Models #Visual Prompt #Reinforcement Fine-Tuning #Policy Optimization #Embodied AI #Spatial Reasoning #Perception Errors

2025년 12월 4일

[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual Worlds

SIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.

#Review #Embodied AI #Generalist Agent #Virtual Worlds #Foundation Models #Gemini #Self-Improvement #Dialogue #Reasoning #Reinforcement Learning

2025년 12월 4일

[논문리뷰] EgoLCD: Egocentric Video Generation with Long Context Diffusion

논문은 장기적으로 일관된 1인칭 시점(egocentric) 비디오를 생성하는 데 있어 콘텐츠 드리프트(content drift) 와 계산 자원 제약으로 인한 장기 기억(long-term memory) 관리의 어려움 을 해결하고자 합니다.

#Review #Egocentric Video Generation #Long-Context Diffusion #Long-Short Memory #Sparse KV Cache #Memory Regulation Loss #Structured Narrative Prompting #World Models #Embodied AI

2025년 12월 4일

[논문리뷰] 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

기존 4D 시맨틱 필드 구축 방식이 Gaussian Splatting 에 의존하여 장면별 최적화가 필요하고 일반화 및 확장성이 제한적인 문제를 해결하고자 합니다.

#Review #4D Scene Understanding #Language Grounding #Transformer #Feed-forward Network #Semantic Field #Geometry Reconstruction #Embodied AI

2025년 12월 4일

[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.

#Review #Spatial Reasoning #Vision Language Models #Reinforcement Learning #Tool Augmentation #Robotics #Multi-Tool Use #Embodied AI

2025년 12월 3일

[논문리뷰] MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory

이 논문은 동적이고 이전에 본 적 없는 환경에서 강건한 제로샷 시각 내비게이션(zero-shot visual navigation) 을 달성하는 것을 목표로 합니다.

#Review #Visual Navigation #Dual-Scale Framework #Sparse Spatial Memory Graph #Memory-Guided Planning #Geometry-Enhanced Control #Zero-Shot Navigation #Embodied AI

2025년 12월 2일

[논문리뷰] DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

본 논문은 Vision-Language-Action (VLA) 모델에서 발생하는 '액션 퇴화(action degeneration)' 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Embodied AI #Action Degeneration #Data Pruning #Knowledge Distillation #Multi-modal Reasoning #Robot Learning #VLA Score

2025년 11월 30일

[논문리뷰] MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

본 논문은 사족 보행 로봇의 자연어 명령을 연속적인 제어로 연결하는 데 따르는 근본적인 과제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Mobile Robotics #Quadruped Robots #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Embodied AI #Multimodal Perception

2025년 11월 26일

[논문리뷰] GigaWorld-0: World Models as Data Engine to Empower Embodied AI

본 논문은 GigaWorld-0 라는 통합 월드 모델 프레임워크를 개발하여 Embodied AI 를 위한 확장 가능하고 데이터 효율적인 데이터 엔진 으로 활용하는 것을 목표로 합니다.

#Review #World Models #Embodied AI #Data Generation #Video Generation #3D Scene Reconstruction #Robotics #Vision-Language-Action

2025년 11월 25일

[논문리뷰] Scaling Spatial Intelligence with Multimodal Foundation Models

본 연구는 최신 멀티모달 파운데이션 모델(Multimodal Foundation Models, MLLMs)이 가진 공간 지능(spatial intelligence)의 부족함을 해결하고, SenseNova-SI 계열 모델을 통해 대규모 데이터 스케일링을 통해 공간 지능을 효과적으로 육성하는 방법을 탐구하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal Foundation Models #Data Scaling #Perspective-taking #Visual Question Answering #Emergent Capabilities #Embodied AI #Benchmark Evaluation

2025년 11월 20일

[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report

이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Model (VLM)#Embodied AI #Autonomous Driving #Foundation Model #Multimodal Learning #Task Planning #Affordance Prediction #Spatial Understanding #Reinforcement Learning

2025년 11월 20일

[논문리뷰] FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

본 논문은 기존 VLN(Vision-and-Language Navigation) 시스템의 정적인 지시, 사회적 의도 모델링 부족, 비현실적인 상호작용 환경 등의 한계를 극복하고자 합니다.

#Review #Embodied AI #Vision-and-Language Navigation (VLN)#LLM-driven Simulation #Human-Agent Interaction #Closed-Loop #Benchmark Dataset #Social Cognition

2025년 11월 19일

[논문리뷰] NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

본 논문은 Vision-Language-Action (VLA) 모델이 실제 환경 및 다양한 로봇 플랫폼에서 보이는 낮은 신뢰성과 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #Direct Preference Optimization #World Model #Reward Learning #Robotics #Embodied AI #Flow-Matching

2025년 11월 17일

[논문리뷰] 10 Open Challenges Steering the Future of Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델 의 개발과 광범위한 수용을 가속화하기 위해 현재 연구 분야에서 직면한 10가지 주요 개방형 과제를 식별하고 논의하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied AI #Robotics #Multimodal Perception #Cross-Robot Generalization #Hierarchical Planning #World Models #Robot Safety

2025년 11월 10일

[논문리뷰] LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

대규모 언어 모델(LLMs)로 생성된 3D 장면이 현실적인 공간 레이아웃과 객체 속성을 제대로 반영하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #3D Scene Synthesis #Fine-Grained Evaluation #Tool-Augmented LLMs #Embodied AI #Vision-Language Models #Benchmark #Multi-Hop Grounding

2025년 11월 9일

[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

본 논문은 학습 기반 로봇 제어 알고리즘, 특히 Vision-Language-Action (VLA) 모델 의 대규모, 재현성 및 확장 가능한 실제 로봇 평가를 위한 도전 과제를 해결하는 것을 목표로 합니다.

#Review #Robotics #Real-robot Evaluation #Embodied AI #Vision-Language-Action Models #Benchmarking #Online Testing System #Robotics Control #Large-scale Evaluation

2025년 11월 9일

[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

기존 VLA(Vision-Language-Action) 모델이 비전 생성 및 행동 예측을 분리하여 다루거나 외부 전문가에 의존하는 한계를 극복하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Diffusion Models #Discrete Denoising #Multimodal Learning #Robotics #Embodied AI #Joint Generation #Action Prediction

2025년 11월 9일

[논문리뷰] A Survey on Efficient Vision-Language-Action Models

이 논문은 대규모 Vision-Language-Action (VLA) 모델 이 직면한 막대한 계산 및 데이터 요구사항으로 인해 실제 로봇 환경에 배포되기 어려운 문제를 해결하는 것을 목표로 합니다.

#Review #Embodied AI #Robotic Manipulation #VLA Models #Efficient AI #Model Compression #Efficient Training #Data Collection #Multimodal AI

2025년 11월 9일

[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction

본 논문은 수동적 관찰에 의존하는 기존 비디오 생성 모델의 한계(물리적 인과관계 이해 부족)를 극복하고, 대규모의 인과관계가 풍부한 실제 상호작용 데이터 를 통해 로봇이 물리적 직관을 습득할 수 있는 세계 모델(World Model) 을 개발하는 것을 목표로 합니다.

#Review #World Model #Embodied AI #Robotics #Diffusion Models #Physical Reasoning #Vision Language Models #Interaction Data #Self-Optimization

2025년 9월 29일

[논문리뷰] SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

이 논문은 기존 3D 장면 합성 방법론들이 고정된 카테고리, 부족한 객체 디테일, 물리적 불일치, 복잡한 사용자 지시와의 낮은 정합성 등의 한계를 가지는 문제를 해결하고자 합니다.

#Review #3D Scene Synthesis #Agentic Framework #LLMs #Self-Reflection #Tool-Use #Physical Plausibility #Iterative Refinement #Embodied AI

2025년 9월 26일

[논문리뷰] Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

현재 VLA(Vision-Language-Action) 기반 로봇 이 모호한 지시를 처리하지 못하고 수동적으로 명령을 실행하는 한계를 해결하는 것이 목표입니다.

#Review #Embodied AI #Human-Robot Interaction #Multi-turn Dialogue #Instruction Following #Vision-Language Models #Diffusion Models #Ambiguity Resolution #Low-level Actions

2025년 9월 22일

[논문리뷰] PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era

본 논문은 기존 핀홀(pinhole) 비전에 비해 연구가 뒤처진 옴니디렉셔널(omnidirectional) 비전의 잠재력을 발현하고, 데이터 병목 현상, 모델 역량 한계, 애플리케이션 공백과 같은 주요 문제를 해결하여 신체화된 AI(Embodied AI) 시대에 포괄적인 환경 인식을 달성하는 것을 목표로 합니다.

#Review #Omnidirectional Vision #Embodied AI #Panoramic Perception #Multi-modal Learning #Dataset Development #Robot Navigation #Spatial Reasoning #System Architecture

2025년 9월 18일

[논문리뷰] InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

본 연구는 Embodied AI 의 발전을 위해 기존 3D 장면 데이터셋이 가진 규모, 다양성, 사실적인 레이아웃(특히 작은 객체), 심각한 객체 충돌 문제를 해결하고자 합니다.

#Review #Embodied AI #3D Scene Dataset #Simulation Environment #Scene Generation #Point-Goal Navigation #Realistic Layouts #Object Interaction #Real-to-Sim

2025년 9월 16일

[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다.

#Review #Embodied AI #Multimodal LLMs #3D Grounding #Task-Adaptive Reasoning #Embodiment-Aware Planning #Robotics #Spatial Reasoning

2025년 9월 12일

[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.

#Review #Vision-Language-Action #Embodied AI #Visual Foresight #Predictive Inverse Dynamics #Mixture-of-Transformer #Robot Manipulation #Multi-stage Training #Generalization

2025년 9월 10일

[논문리뷰] Robix: A Unified Model for Robot Interaction, Reasoning and Planning

본 논문은 일반ist 로봇이 복잡한 장기 작업을 추론하고 자연스러운 인간 상호작용에 참여할 수 있도록 단일 비전-언어 아키텍처 내에서 로봇 추론, 태스크 플래닝, 자연어 상호작용을 통합하는 Robix 모델을 제안합니다.

#Review #Robot Learning #Vision-Language Models (VLMs)#Embodied AI #Human-Robot Interaction (HRI)#Task Planning #Reinforcement Learning (RL)#Chain-of-Thought (CoT) Reasoning #Robotics

2025년 9월 4일

[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

본 연구는 기존 VLA 모델들이 가진 제한된 도메인 및 유연성 문제를 해결하고, 개방형 환경에서 인간 수준의 유연한 다중 모달 추론 및 물리적 상호작용 을 가능하게 하는 일반ist 로봇 제어를 목표로 합니다.

#Review #Embodied AI #Robot Control #Vision-Language-Action Models #Multimodal Pretraining #Flow Matching #Foundation Models #Generalization #Real-world Robotics

2025년 9월 1일

[논문리뷰] RynnEC: Bringing MLLMs into Embodied World

본 논문의 핵심 목표는 기존 Multi-modal Large Language Models ( MLLM )이 실제 물리적 세계를 이해하는 데 부족했던 기초적인 시각 인지 능력 의 한계를 극복하는 것입니다.

#Review #Multi-modal Large Language Models #Embodied AI #Embodied Cognition #Video Understanding #Instance Segmentation #Spatial Reasoning #Robotics

2025년 8월 21일

[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.

#Review #Embodied AI #Robotic Manipulation #Reinforcement Learning #Vision-Language Model #Pointing #Zero-shot Generalization

2025년 8월 20일

[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

본 연구는 대규모 언어 모델(LLM)이 물리적 상호작용, 도구 사용, 다중 에이전트 협업이 필요한 구체화된(embodied) 태스크 에서 얼마나 잘 추론하는지 평가하기 위한 종합적인 프레임워크인 OmniEAR 를 제시합니다.

#Review #Embodied AI #Agent Reasoning #LLM #Benchmarking #Tool Use #Multi-Agent Systems #Physical Interaction #Constraint Reasoning

2025년 8월 12일

[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

본 논문은 로봇 조작을 위한 통합된 세계 파운데이션 플랫폼 (Genie Envisioner) 을 제시하여, 정책 학습, 평가 및 시뮬레이션을 단일 비디오-생성 프레임워크 내에서 통합하는 것을 목표로 합니다. 이는 기존 로봇 개발 과정의 단편적인 단계를 극복하고 확장 가능하며 범용적인 지능형 로봇 시스템 구축을 지향합니다.

#Review #Robotic Manipulation #World Model #Video Generation #Diffusion Model #Embodied AI #Foundation Model #Robotics Simulation #Policy Learning

2025년 8월 8일

[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language Models #Synthetic Worlds #Transfer Learning #PPO #Actor-Critic #Embodied AI

2025년 8월 7일

[논문리뷰] RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems

이 논문은 물리적 환경에 배치된 로봇 에이전트의 평생 학습(Lifelong Learning) 및 장기 계획(Long-term Planning) 을 위한 뇌에서 영감을 받은 다중 메모리 프레임워크인 RoboMemory 를 제안합니다.

#Review #Brain-inspired AI #Lifelong Learning #Embodied AI #Multi-memory Systems #Knowledge Graph #Robotics #Closed-Loop Planning

2025년 8월 5일

[논문리뷰] IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

본 논문은 이미지-목표 내비게이션(Image-goal Navigation)의 근본적인 문제를 해결하는 것을 목표로 합니다. 기존의 종단 간 RL 학습이나 모듈 기반 접근 방식이 탐색된 3D 환경과 목표 이미지 간의 기하학적 관계를 효과적으로 모델링하지 못하는 한계를 극복하고자 합니다.

#Review #Image-goal Navigation #3D Gaussian Splatting (3DGS)#Incremental Scene Representation #Coarse-to-fine Localization #Embodied AI #Robotics #Differentiable Rendering

2025년 8월 4일

[논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

본 논문은 인간의 다중모달 공간 추론 능력을 대규모 모델(MLLMs)에 적용하는 연구의 현황을 체계적으로 검토하고, 이 분야의 발전을 위한 공개 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Spatial Reasoning #Survey #Benchmarks #3D Vision #Embodied AI #Vision-Language Navigation

2025년 10월 30일

[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#3D Spatial Reasoning #Embodied AI #Foundation Models #Multimodal Fusion #Robot Manipulation #Modality Transferability #Action Grounding

2025년 10월 29일

[논문리뷰] VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

기존 VLM 기반 로봇 시스템의 고정적이고 비동시적인 상호작용 패러다임이 유연한 인간-로봇 협력을 저해하는 문제를 해결하는 것을 목표로 합니다. 로봇이 인간처럼 동시에 보고, 듣고, 말하고, 행동하며 실시간 사용자 개입에 동적으로 반응할 수 있는 프레임워크를 구축하고자 합니다.

#Review #Embodied AI #Human-Robot Interaction #Vision-Language Models #Concurrency #Interruption #Robotics Control #Dual-Model Architecture #Special Tokens

2025년 10월 28일

[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments

본 연구는 기존 MLLM이 정적이고 완전히 관찰 가능한 환경에 국한되어 실제 물리적 환경에서의 정보 불완전성 문제에 취약하다는 한계를 지적합니다.

#Review #Active Visual Reasoning #MLLM #Physical Environments #Partially Observable #Markov Decision Process #Chain-of-Thought #Embodied AI #CLEVR-AVR

2025년 10월 27일

[논문리뷰] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

본 논문은 실체화된 AI 에이전트 훈련을 위한 확장 가능한 환경 구축의 문제를 해결하고자 합니다. 기존 월드 시뮬레이터는 콘텐츠 다양성 또는 물리 정확도 중 하나에 국한되는 한계가 있으며, 특히 수동 자산 생성의 어려움으로 인해 확장성이 제한됩니다.

#Review #3D Asset Generation #Simulation-Ready Assets #Diffusion Models #Physically Based Rendering (PBR)#Embodied AI #Robotic Simulation #Image-to-3D #Foundation Model

2025년 10월 24일

[논문리뷰] GigaBrain-0: A World Model-Powered Vision-Language-Action Model

본 논문은 일반 로봇용 VLA(Vision-Language-Action) 모델이 직면한 대규모 실제 로봇 데이터 수집의 비효율성 및 제한된 다양성 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #World Model #Data Augmentation #Robot Generalization #Embodied AI #RGBD #Chain-of-Thought

2025년 10월 23일

[논문리뷰] World-in-World: World Models in a Closed-Loop World

본 논문은 기존 세계 모델(World Models, WM) 평가 프로토콜이 시각적 품질에만 치중하여 실제 환경에 대한 embodied agent의 태스크 성공 여부 를 제대로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #World Models #Embodied AI #Closed-Loop Evaluation #Online Planning #Data Scaling #Controllability #Robotic Manipulation

2025년 10월 22일

[논문리뷰] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

본 논문은 소규모 Vision-Language Model(VLM)이 복잡한 Embodied AI 태스크를 수행하는 데 필요한 지식과 기술 부족 문제를 해결하고자 합니다.

#Review #Embodied AI #Vision Language Models (VLMs)#Reinforcement Learning (RL)#Prior Learning #Supervised Fine-tuning (SFT)#Embodied Agents

2025년 10월 15일

[논문리뷰] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

본 논문은 현대 다중 모달 대규모 언어 모델(MLLMs) 이 물리적 도구를 얼마나 깊이 이해하는지 정량적으로 평가하는 것을 목표로 합니다. 특히, 임베디드 AI 에이전트가 실제 환경에서 도구를 효과적으로 사용하고, 심지어 새로운 도구를 만들어내는 데 필요한 물리적 도구 이해 능력의 현황과 한계를 파악하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Physical Tool Understanding #Benchmarking #Embodied AI #Visual Question Answering (VQA)#Tool Affordances #Reasoning

2025년 10월 13일

[논문리뷰] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

본 논문은 물리적 상호작용 데이터 수집의 높은 비용으로 인해 Embodied AI 의 확장이 제한되는 문제를 해결하고자 합니다. 특히, 데스크톱 환경(주로 게임)의 풍부한 센서모터 상호작용을 활용하여 로봇의 Embodied AI 작업을 위한 효과적인 사전 훈련(pretraining) 기반 을 구축하는 것을 목표로 합니다.

#Review #Embodied AI #Vision-Action Pretraining #Desktop Data #Inverse Dynamics Model (IDM)#Pseudo-labeling #Robotics #Generalization #Data Compression

2025년 10월 13일

[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.

#Review #Vision-Language-Action Models #Reinforcement Learning #World Models #Fine-tuning #Embodied AI #Robotics #Reward Design #Distribution Shift

2025년 10월 2일

[논문리뷰] OceanGym: A Benchmark Environment for Underwater Embodied Agents

본 연구는 해저 환경의 낮은 가시성, 동적 해류 등의 극한 조건에서 AI 기반 자율 수중 로봇(AUV) 이 직면하는 심각한 인지 및 의사결정 문제들을 해결하기 위해, 포괄적인 벤치마크 환경인 OCEANGYM 을 제안합니다. 궁극적으로는 실제 환경에 적용 가능한 강력한 자율 에이전트 개발을 촉진하는 것을 목표로 합니다.

#Review #Underwater Robotics #Embodied AI #Benchmark Environment #Multi-modal Large Language Models #Autonomous Underwater Vehicles #Perception #Decision-Making #Simulation

2025년 10월 1일