[논문리뷰] Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?본 논문은 Foundation Models가 수동적인 시각적 이해를 넘어, 능동적인 탐색을 통해 3D 공간에서 목표 시점을 정확히 재현할 수 있는지 질문합니다 . 기존 연구들은 주로 사전에 수집된 데이터에 의존하여 '무엇이 어디에 있는가'를 묻는 정적인 공간 지능에 집중해 왔습니다.#Review#Target Viewpoint Reproduction#TVRBench#Active Exploration#Foundation Models#Spatial Intelligence#Embodied AI#GRPO#SFT2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems본 논문은 블랙박스 형태의 Physical AI 모델이 생성한 행동이 물리적 실행으로 이어지기 전, 적절한 검증이 이루어지지 않아 발생하는 '행동 승인 공백(Action-Authorization Gap)' 문제를 다룹니다.#Review#Physical AI#Runtime Guardrails#Embodied AI#Vision-Language-Action Models#Silent Failures#Runtime Assurance2026년 6월 1일댓글 수 로딩 중
[논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes본 논문은 기존 VLM 벤치마크가 현실의 물리적 환경에서 발생하는 다양한 시각적 스트레스를 제대로 반영하지 못한다는 점을 해결하고자 합니다.#Review#Vision-Language Models#Embodied AI#Robustness#Physical Visual Stress#Benchmark#Inverse Graphics#Test-Time Rectification2026년 6월 1일댓글 수 로딩 중
[논문리뷰] RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models본 논문은 현대의 VLA 모델들이 학습 과정에서 진정한 의미적 이해보다는 시각적 혹은 지시어-행동 간의 통계적 Shortcut에 의존하는 문제를 해결하고자 한다 . 저자들은 기존의 로봇 학습 벤치마크들이 단순한 형태의 명령어를 사용하여 모델의 진정한 의미론적 추론 능력을 검증하지 못하고 있다고 지적한다.#Review#Vision-Language-Action Models#Embodied AI#Semantic Grounding#Action Prediction#Robotics Benchmark#Instruction-following2026년 6월 1일댓글 수 로딩 중
[논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft본 논문은 MLLM 에이전트의 진정한 오픈 월드 탐색 능력을 객관적으로 평가할 수 있는 통제된 프레임워크가 부족하다는 점을 해결하고자 한다. 기존의 게임 기반 벤치마크들은 특정 게임 메커니즘에 지나치게 의존하거나, 상호작용의 범위가 단기적인 작업에 국한되어 에이전트의 장기적인 탐색 능력을 측정하기 어렵다는 한계가 있다 .#Review#MLLM Agents#Open-World Exploration#Minecraft#Embodied AI#Benchmark#Task Synthesis#Multi-Agent Workflow2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?본 논문은 기존의 spatial reasoning 벤치마크들이 시각적 관측이 항상 충분하고 신뢰 가능하다는 비현실적인 가정에 의존하고 있다는 점을 지적합니다.#Review#Vision-Language Models#Spatial Reasoning#Observational Uncertainty#Abstention#Occlusion#Perspective Ambiguity#Embodied AI2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring본 논문은 범용 VLA 모델이 실환경 배포 시 겪는 실행 실패 문제를 실시간으로 감지하기 위한 효율적인 방법을 모색합니다. 기존의 방법론들은 고가의 단계별 실패 주석이 필요하거나, 액션 재샘플링 및 외부 VLM 모델 사용에 따른 높은 계산 오버헤드로 인해 실시간 배포가 어렵다는 한계가 있습니다.#Review#Vision-Language-Action (VLA)#Failure Detection#Coarsely Supervised Learning#Contrastive Learning#Conformal Prediction#Embodied AI2026년 5월 31일댓글 수 로딩 중
[논문리뷰] SpatialBench: Is Your Spatial Foundation Model an All-Round Player?본 논문은 현재 Spatial Foundation Models (SFMs)이 standard dataset에서 인상적인 성능을 보여주지만, 다양한 downstream task, 임의의 viewpoint, 변화하는 scene domain, 다양한 input density, 그리고 특정 hardware constraint에 걸쳐 robust하게 generalizing할 수 있는 all-round player인지에 대한 근본적인…#Review#Spatial Foundation Models#3D Reconstruction#Benchmark#Domain Generalization#Input Density#Embodied AI2026년 5월 26일댓글 수 로딩 중
[논문리뷰] StableVLA: Towards Robust Vision-Language-Action Models without Extra Data본 논문은 기존 VLA 모델들이 훈련 데이터에 포함되지 않은 실세계의 다양한 시각적 노이즈(센서 노이즈, 모션 블러 등)에 매우 취약하다는 점을 지적합니다. 현재의 VLA 모델은 주로 깨끗한 환경에서만 평가되며, 실제 배포 시 시각적 왜곡이 발생하면 성능이 급격히 저하되는 'robustness gap'을 보입니다.#Review#Vision-Language-Action Models#Information Bottleneck#Robustness#Modality Alignment#Embodied AI#Adapter Design2026년 5월 18일댓글 수 로딩 중
[논문리뷰] FrameSkip: Learning from Fewer but More Informative Frames in VLA Training본 논문은 기존 VLA 모델 학습 과정에서 무분별하게 모든 프레임을 동일한 비중으로 사용하는 'Temporal supervision imbalance' 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Robot Manipulation#Frame Selection#Temporal Supervision#Data Curation#Policy Learning#Embodied AI2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Continual Harness: Online Adaptation for Self-Improving Foundation Agents본 논문은 embodied agent가 복잡하고 긴 호흡의 환경에서 명확한 도메인 스캐폴딩 없이도 자율적으로 학습하고 진화할 수 있는 체계를 구축하고자 합니다 .#Review#Foundation Agents#Continual Harness#Online Adaptation#Embodied AI#In-Context Learning#Reset-Free Training#Process Reward Models2026년 5월 12일댓글 수 로딩 중
[논문리뷰] Audio-Visual Intelligence in Large Foundation Models본 논문은 대규모 파운데이션 모델 시대에 멀티모달 학습이 필수적임에도 불구하고, 시청각 데이터 간의 정렬, Taxonomy의 불일치, 그리고 평가 방법론의 파편화로 인해 체계적인 연구가 어렵다는 문제를 해결하고자 합니다.#Review#Audio-Visual Intelligence#Foundation Models#Multimodal Fusion#Embodied AI#Cross-modal Generation2026년 5월 7일댓글 수 로딩 중
[논문리뷰] ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue본 논문은 기존의 UAV SAR 연구들이 전통적인 비전 및 경로 계획 방식에 국한되어 있어, 복잡한 환경에서의 자율적 의사결정 능력을 평가할 통합된 벤치마크가 부족하다는 점을 지적합니다.#Review#Embodied AI#Search and Rescue (SAR)#UAV#Multimodal Large Language Models (MLLMs)#Simulation Platform#Benchmark2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising본 논문은 기존 Unified World Model들이 2D 픽셀 공간에만 국한되어 기하학적 구조에 대한 이해가 부족하며, 고차원 비디오 생성과 저차원 행동 예측 사이의 효율적인 균형을 맞추지 못한다는 문제를 해결하고자 한다.#Review#Embodied AI#World Models#Diffusion Transformer#3D Reconstruction#Robotic Manipulation#Asynchronous Denoising#Unified Modeling2026년 4월 29일댓글 수 로딩 중
[논문리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning본 논문은 로봇 조작 과업에서 기존 VLM(Vision-Language Model) 기반 가치 함수가 가진 시간적 역학(Temporal Dynamics) 이해 부족 문제를 해결하고자 합니다.#Review#Robot Reinforcement Learning#Video-Generative Model#Value Function#Embodied AI#Future Prediction#Spatiotemporal Priors2026년 4월 9일댓글 수 로딩 중
[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.#Review#Vision-Language Models#Embodied AI#Long-Horizon Planning#3D Open-World Benchmark#Automated Evaluation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook본 논문은 현대의 언어 기반 모델들이 여전히 토큰 단위의 명시적인 생성 방식에 의존하고 있어, 이로 인한 구조적 한계에 직면해 있다는 점을 지적한다.#Review#Latent Space#Language-based Models#Implicit Reasoning#Multimodal Computation#Embodied AI#Latent Representation#Machine-native2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning본 연구는 embodied 환경에서 시점 변화, 거리, 폐색(Occlusion)으로 인해 발생하는 객체 묘사의 의미론적 불일치(Semantic Inconsistency) 문제를 해결하는 것을 목적으로 합니다.#Review#Embodied AI#Vision-Language Models#Episodic Memory#Semantic Consistency#Object Captioning#Data Association2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied SimulationEmbodied AI 분야에서 로봇 trajectory를 세계 환경 내에서 roll out하는 능력은 demonstration 확장, policy evaluation 및 reinforcement learning에 매우 중요합니다.#Review#Embodied AI#4D Generative World Model#Spatiotemporal-aware#Kinematic Control#Robotic Simulation#Diffusion Transformer#Pointmap2026년 3월 17일댓글 수 로딩 중
[논문리뷰] MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents본 논문은 여러 embodied AI 에이전트 로부터 동시에 수집된 다중의 장기 에고센트릭 비디오 를 이해하고 추론하는 새로운 문제를 해결하는 것을 목표로 합니다.#Review#Egocentric Vision#Multi-Agent Systems#Video Question Answering#Long-Horizon Reasoning#Embodied AI#Benchmark Dataset#Shared Memory#Dynamic Retrieval2026년 3월 11일댓글 수 로딩 중
[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs본 논문은 플로우 기반 Vision-Language-Action (VLA) 모델이 온라인 강화 학습(RL)에서 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 다단계 샘플링 시 계산하기 어려운 우도(likelihood) 문제와, 미세 조정 후 행동 다양성이 부족하여 사소한 편차에도 취약해지는 문제를 해결하고자 합니다.#Review#Reinforcement Learning (RL)#Flow-based Models#Vision-Language-Action (VLA) Models#Online Learning#Stochastic Differential Equation (SDE)#Contrastive Learning#Embodied AI#Robotics2026년 3월 8일댓글 수 로딩 중
[논문리뷰] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding본 논문은 embodied task를 위해 탐색 과정과 동시에 3D 장면을 실시간으로 이해하는 문제를 해결하는 것을 목표로 합니다.#Review#3D Gaussian Splatting#Open-Vocabulary#Embodied AI#Online Reconstruction#Semantic 3D Scene Understanding#CLIP Features#Feed-Forward Neural Networks2026년 3월 4일댓글 수 로딩 중
[논문리뷰] EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents본 논문은 기존의 고비용 및 스튜디오 의존적인 모션 캡처 시스템의 한계를 극복하고, 일상 환경에서 인간의 행동과 3D 장면 정보를 담은 고품질의 4D 인간-장면 데이터 를 대규모로 수집하는 것을 목표로 합니다.#Review#Embodied AI#4D Reconstruction#Human-Scene Interaction#iPhone RGB-D#In-the-Wild Mocap#Physics-based Animation#Humanoid Robot Control#Low-Cost Data Collection2026년 2월 26일댓글 수 로딩 중
[논문리뷰] Solaris: Building a Multiplayer Video World Model in Minecraft기존 단일 에이전트 비디오 월드 모델의 한계를 극복하고, Minecraft 와 같은 복잡한 3D 환경에서 일관된 다중 시점 관찰을 시뮬레이션할 수 있는 다중 에이전트 비디오 월드 모델 (Solaris) 을 구축하는 것이 목표입니다.#Review#Multi-agent World Models#Video Diffusion Models#Minecraft#Self Forcing#Checkpointed Self Forcing#Multi-view Consistency#Data Collection#Embodied AI2026년 2월 25일댓글 수 로딩 중
[논문리뷰] From Perception to Action: An Interactive Benchmark for Vision Reasoning기존 VLM 평가가 구조 불가지론적이고 단일 턴 질의응답(VQA)에 치중하여 동적 환경에서 기하학, 접촉, 지지 관계가 행동 가능성을 어떻게 제약하는지에 대한 에이전트의 추론 능력을 평가하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language Models#Physical Reasoning#Interactive AI#3D Benchmark#Mechanical Puzzles#Spatial Packing#Embodied AI2026년 2월 24일댓글 수 로딩 중
[논문리뷰] BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models기존 로봇 조작 벤치마크가 주로 단일 팔 조작에 국한되어 양팔 조작에 필수적인 공간-시간적 조정, 동적 역할 할당, 자가 충돌 방지 등의 복잡성을 포착하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Bimanual Manipulation#MLLMs#Robotics Benchmark#Spatial Reasoning#Action Planning#End-Effector Control#Embodied AI#Multimodal LLMs2026년 2월 18일댓글 수 로딩 중
[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.#Review#Robotic Manipulation#Vision-Language-Action (VLA)#Foundation Models#Action Manifold Learning#Diffusion Transformers#Data Curation#Embodied AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation본 논문은 실세계 환경에서 Beyond-the-View Navigation (BVN) 이 직면한 과제를 해결하는 것을 목표로 합니다.#Review#Vision-Language Navigation#Beyond-the-View Navigation#Video Generation Models#Sparse Video Generation#Diffusion Models#Embodied AI#Real-world Navigation#Long-horizon Planning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.#Review#Multimodal Critics#Physical AI#Reinforcement Learning#Self-Referential Finetuning#Evaluation Models#Causal Reasoning#Embodied AI#RLVR2026년 2월 11일댓글 수 로딩 중
[논문리뷰] SAGE: Scalable Agentic 3D Scene Generation for Embodied AI본 논문은 Embodied AI 의 고비용 및 안전 문제로 인한 데이터 수집의 한계를 극복하고, 기존 장면 생성 시스템의 물리적 비유효성 및 비현실성 문제를 해결하고자 합니다.#Review#Embodied AI#3D Scene Generation#Agentic Framework#Simulation-Ready Environments#Robot Policy Learning#Large Language Models (LLM)#Physics Simulation#Data Augmentation2026년 2월 10일댓글 수 로딩 중
[논문리뷰] BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation본 논문은 복잡하고 장기적인 로봇 조작 작업을 위해 언어적 계획, 시각적 예측, 행동 생성 을 통합하는 통일된 프레임워크를 개발하는 것을 목표로 합니다. 기존 Vision-Language-Action (VLA) 모델들이 이러한 기능들을 분리된 모듈로 처리하여 최적의 성능을 달성하지 못하는 한계를 극복하고자 합니다.#Review#Long-horizon manipulation#Embodied AI#Vision-Language-Action (VLA)#Interleaved planning#Visual forecasting#Residual Flow Guidance#Multimodal learning2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks현재 단편적인 방식으로 세계 지식을 주입하는 AI 연구의 한계를 극복하고, 통합적이고 총체적인 세계 이해 를 가능하게 하는 세계 모델(World Models) 을 위한 통합 설계 프레임워크 를 제안하는 것이 목표입니다.#Review#World Models#Unified Framework#Multimodal AI#Embodied AI#Physical Understanding#Long-term Consistency#AI Agents#Generative Models2026년 2월 3일댓글 수 로딩 중
[논문리뷰] PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction본 논문은 기존의 스트리밍 3D 재구성 방식이 고품질 렌더링과 정확한 기하학적 구조를 동시에 달성하기 어렵고, 구조적 중복성이 높아 확장성이 제한되는 문제를 해결하고자 합니다.#Review#Streaming 3D Reconstruction#Hybrid Representation#Triangle Primitives#Neural Gaussians#Geometric Accuracy#High-Fidelity Rendering#Embodied AI#Monocular SLAM2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Advancing Open-source World Models본 논문은 기존 비디오 생성 모델의 한계(데이터 희소성, 장기 일관성 부족, 실시간 상호작용의 어려움, 독점적 솔루션)를 극복하고, 가상 세계의 역학을 학습하며 실시간으로 렌더링할 수 있는 오픈 소스 세계 모델(world model) 인 LingBot-World를 개발하는 것을 목표로 합니다.#Review#World Models#Open-source AI#Video Generation#Real-time Simulation#Long-term Memory#Action-Conditioned Learning#Generative Models#Embodied AI2026년 1월 28일댓글 수 로딩 중
[논문리뷰] TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers표준 Vision-Language-Action (VLA) 모델이 로봇 제어를 위해 VLM 백본을 미세 조정할 때 발생하는 '파멸적 망각(catastrophic forgetting)' 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action (VLA)#Embodied AI#Robotics#Catastrophic Forgetting#Asymmetric Mixture-of-Transformers (AsyMoT)#Generalist VLM#Specialist VLM#Flow-Matching2026년 1월 25일댓글 수 로딩 중
[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind본 논문은 기존 embodied AI foundation model의 2D pixel 기반 grounding 및 sparse temporal supervision의 한계를 극복하고, 정확한 3D 공간 추론(Precise 3D Spatial Reasoning) 과 밀집 시간 가치 예측(Dense Temporal Value Estimation) 능력을 통해 로봇의 물리적 상호작용 신뢰성과 실행 인지도를 향상시키는 것을 목표로…#Review#Embodied AI#Foundation Model#3D Spatial Reasoning#Temporal Value Estimation#Robotics#Manipulation#Multimodal Learning2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Rethinking Video Generation Model for the Embodied World본 연구는 로봇 상호작용을 정확하게 반영하는 고품질 비디오 생성의 어려움을 해결하고, 표준화된 벤치마크 부족으로 인한 공정한 비교 및 발전의 한계를 극복하는 것을 목표로 합니다. 궁극적으로 로봇 학습 및 행동 예측을 위한 비디오 생성 모델의 실제 적용 가능성을 높이고, 신체화된 AI의 발전을 가속화하고자 합니다.#Review#Video Generation#Embodied AI#Robotics Benchmark#RBench#Robotics Dataset#RoVid-X#Physical Plausibility#Task Completion2026년 1월 21일댓글 수 로딩 중
[논문리뷰] FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language NavigationVision-and-Language Navigation (VLN)에서 기존 Chain-of-Thought (CoT) 추론 방식의 한계, 즉 공간 접지 부족, 희소한 주석에 대한 과적합, 또는 상상된 시각적 관찰 생성으로 인한 심각한 토큰 팽창 문제로 실시간 내비게이션이 비실용적인 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language Navigation#Chain-of-Thought Reasoning#Multimodal AI#Implicit Reasoning#Visual AutoRegressor#Embodied AI#Long-Horizon Planning2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Aligning Agentic World Models via Knowledgeable Experience Learning본 논문은 대규모 언어 모델(LLMs) 기반 에이전트 월드 모델이 겪는 '물리적 환각(physical hallucinations)' 문제를 해결하고자 합니다.#Review#Agentic AI#World Models#Experience Learning#LLMs#Physical Hallucinations#Embodied AI#Predictive Coding#Knowledge Repository2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning본 논문은 복잡한 시각-언어-액션 (VLA) 태스크에서 기존 추론 VLA 모델들이 긴 chain-of-thought (CoT) 추론 과정으로 인해 겪는 높은 추론 지연 시간(inference latency) 문제를 해결하고자 합니다.#Review#Vision-Language-Action#Embodied AI#Latent Planning#Chain-of-Thought#Distillation#Inference Efficiency#Robotic Manipulation#Preference Learning2026년 1월 14일댓글 수 로딩 중
[논문리뷰] NitroGen: An Open Foundation Model for Generalist Gaming Agents논문은 대규모의 다양하고 레이블링된 행동 데이터 부족으로 인해 지연되었던, 일반화된 행동을 할 수 있는 embodied agent 개발을 목표로 합니다.#Review#Generalist Agents#Foundation Models#Behavior Cloning#Video Games#Action Extraction#Multi-game#Embodied AI2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems본 논문은 자율 시스템을 위한 진정한 공간 지능(Spatial Intelligence) 을 구축하기 위해 다중 모달(multi-modal) 온보드 센서 데이터 사전 훈련에 대한 포괄적인 로드맵을 제시합니다.#Review#Multi-modal Pre-training#Autonomous Systems#Spatial Intelligence#Foundation Models#LiDAR-Camera Fusion#Self-Supervised Learning#Generative World Models#Embodied AI2025년 12월 31일댓글 수 로딩 중
[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs이 논문은 에이전트가 모호한 자연어 지시를 받아 복잡하고 장거리인 환경에서 특정 객체 인스턴스를 찾아내는 Interactive Instance Object Navigation (IION) 태스크를 도입합니다.#Review#Embodied AI#Vision and Language Navigation#Instance Object Navigation#Active Dialog#Large Language Models (LLMs)#Benchmark#Human-Robot Interaction2025년 12월 29일댓글 수 로딩 중
[논문리뷰] QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models본 논문은 최신 Vision-Language Models (VLMs) 이 물리적 특성을 정량적으로 추론하는 능력에 대한 불확실성을 해결하고자 합니다.#Review#Vision-Language Models#Physical Reasoning#Quantitative Benchmark#Kinematics#Mean Relative Accuracy#Video-Text#Embodied AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence본 연구는 시점 불일치 문제로 인해 로봇 일반화에 한계가 있는 기존 VLM(Vision-Language Model)의 단점을 해결하고자 합니다.#Review#Egocentric Data#Physical Intelligence#VLM#Robot Control#Embodied AI#VQA Supervision#Human-Robot Interaction#Zero-shot Transfer2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection본 논문은 정적인 이미지에 국한된 기존 Vision-Language Models (VLMs) 의 Visual Question Answering (VQA) 한계를 극복하고, 앰뷸러토리 비전 능력을 갖춘 에이전트가 더 유익한 시점을 능동적으로 선택하도록 학습시키는 것을 목표로 합니다.#Review#Active Perception#Vision-Language Models (VLMs)#Embodied AI#View Selection#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Visual Question Answering (VQA)#3D Environments2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge2025 BEHAVIOR Challenge에서 물리적 에이전트 가 시뮬레이션 환경에서 장기적인 작업을 성공적으로 수행하는 문제에 집중하며, 기존 Vision-Language-Action (VLA) 모델 의 한계를 극복하는 것을 목표로 합니다.#Review#Embodied AI#Long-horizon Tasks#Vision-Language-Action Models (VLA)#BEHAVIOR Challenge#Offline RL#Pre-training#Rejection Sampling Fine-Tuning (RFT)#Robotics2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge본 논문은 2025 BEHAVIOR Challenge에서 1위를 차지한 비전-액션 정책을 제시하며, 50가지의 다양하고 장기적인 가정용 작업을 포토리얼리스틱 시뮬레이션 에서 수행하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA) models#Flow Matching#Embodied AI#Robot Manipulation#BEHAVIOR Challenge#Correlated Noise#Stage Tracking#Multi-Task Learning2025년 12월 14일댓글 수 로딩 중
[논문리뷰] LEO-RobotAgent: A General-purpose Robotic Agent for Language-driven Embodied Operator본 논문은 다양한 유형의 로봇이 예측 불가능한 복잡한 작업을 수행할 수 있도록 하는 일반 목적의 언어 기반 지능형 로봇 에이전트 프레임워크인 LEO-RobotAgent를 제안합니다.#Review#Robotic Agent#Large Language Models (LLMs)#Embodied AI#Task Planning#Human-Robot Interaction#General-purpose Robotics#ROS2025년 12월 14일댓글 수 로딩 중
[논문리뷰] SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization기존 LVLM(Large Vision-Language Models) 기반의 VLN(Vision-Language Navigation) 에이전트가 겪는 지각, 추론, 계획 오류로 인한 낮은 내비게이션 성능 문제를 해결하고자 합니다.#Review#Vision-Language Navigation#Large Vision-Language Models#Visual Prompt#Reinforcement Fine-Tuning#Policy Optimization#Embodied AI#Spatial Reasoning#Perception Errors2025년 12월 4일댓글 수 로딩 중
[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual WorldsSIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.#Review#Embodied AI#Generalist Agent#Virtual Worlds#Foundation Models#Gemini#Self-Improvement#Dialogue#Reasoning#Reinforcement Learning2025년 12월 4일댓글 수 로딩 중
[논문리뷰] EgoLCD: Egocentric Video Generation with Long Context Diffusion논문은 장기적으로 일관된 1인칭 시점(egocentric) 비디오를 생성하는 데 있어 콘텐츠 드리프트(content drift) 와 계산 자원 제약으로 인한 장기 기억(long-term memory) 관리의 어려움 을 해결하고자 합니다.#Review#Egocentric Video Generation#Long-Context Diffusion#Long-Short Memory#Sparse KV Cache#Memory Regulation Loss#Structured Narrative Prompting#World Models#Embodied AI2025년 12월 4일댓글 수 로딩 중
[논문리뷰] 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer기존 4D 시맨틱 필드 구축 방식이 Gaussian Splatting 에 의존하여 장면별 최적화가 필요하고 일반화 및 확장성이 제한적인 문제를 해결하고자 합니다.#Review#4D Scene Understanding#Language Grounding#Transformer#Feed-forward Network#Semantic Field#Geometry Reconstruction#Embodied AI2025년 12월 4일댓글 수 로딩 중
[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.#Review#Spatial Reasoning#Vision Language Models#Reinforcement Learning#Tool Augmentation#Robotics#Multi-Tool Use#Embodied AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory이 논문은 동적이고 이전에 본 적 없는 환경에서 강건한 제로샷 시각 내비게이션(zero-shot visual navigation) 을 달성하는 것을 목표로 합니다.#Review#Visual Navigation#Dual-Scale Framework#Sparse Spatial Memory Graph#Memory-Guided Planning#Geometry-Enhanced Control#Zero-Shot Navigation#Embodied AI2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action본 논문은 Vision-Language-Action (VLA) 모델에서 발생하는 '액션 퇴화(action degeneration)' 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Embodied AI#Action Degeneration#Data Pruning#Knowledge Distillation#Multi-modal Reasoning#Robot Learning#VLA Score2025년 11월 30일댓글 수 로딩 중
[논문리뷰] MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots본 논문은 사족 보행 로봇의 자연어 명령을 연속적인 제어로 연결하는 데 따르는 근본적인 과제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Mobile Robotics#Quadruped Robots#Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Embodied AI#Multimodal Perception2025년 11월 26일댓글 수 로딩 중
[논문리뷰] GigaWorld-0: World Models as Data Engine to Empower Embodied AI본 논문은 GigaWorld-0 라는 통합 월드 모델 프레임워크를 개발하여 Embodied AI 를 위한 확장 가능하고 데이터 효율적인 데이터 엔진 으로 활용하는 것을 목표로 합니다.#Review#World Models#Embodied AI#Data Generation#Video Generation#3D Scene Reconstruction#Robotics#Vision-Language-Action2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Scaling Spatial Intelligence with Multimodal Foundation Models본 연구는 최신 멀티모달 파운데이션 모델(Multimodal Foundation Models, MLLMs)이 가진 공간 지능(spatial intelligence)의 부족함을 해결하고, SenseNova-SI 계열 모델을 통해 대규모 데이터 스케일링을 통해 공간 지능을 효과적으로 육성하는 방법을 탐구하는 것을 목표로 합니다.#Review#Spatial Intelligence#Multimodal Foundation Models#Data Scaling#Perspective-taking#Visual Question Answering#Emergent Capabilities#Embodied AI#Benchmark Evaluation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.#Review#Vision-Language Model (VLM)#Embodied AI#Autonomous Driving#Foundation Model#Multimodal Learning#Task Planning#Affordance Prediction#Spatial Understanding#Reinforcement Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI본 논문은 기존 VLN(Vision-and-Language Navigation) 시스템의 정적인 지시, 사회적 의도 모델링 부족, 비현실적인 상호작용 환경 등의 한계를 극복하고자 합니다.#Review#Embodied AI#Vision-and-Language Navigation (VLN)#LLM-driven Simulation#Human-Agent Interaction#Closed-Loop#Benchmark Dataset#Social Cognition2025년 11월 19일댓글 수 로딩 중
[논문리뷰] NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards본 논문은 Vision-Language-Action (VLA) 모델이 실제 환경 및 다양한 로봇 플랫폼에서 보이는 낮은 신뢰성과 일반화 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Model#Direct Preference Optimization#World Model#Reward Learning#Robotics#Embodied AI#Flow-Matching2025년 11월 17일댓글 수 로딩 중
[논문리뷰] 10 Open Challenges Steering the Future of Vision-Language-Action Models본 논문은 Vision-Language-Action (VLA) 모델 의 개발과 광범위한 수용을 가속화하기 위해 현재 연구 분야에서 직면한 10가지 주요 개방형 과제를 식별하고 논의하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied AI#Robotics#Multimodal Perception#Cross-Robot Generalization#Hierarchical Planning#World Models#Robot Safety2025년 11월 10일댓글 수 로딩 중
[논문리뷰] LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation대규모 언어 모델(LLMs)로 생성된 3D 장면이 현실적인 공간 레이아웃과 객체 속성을 제대로 반영하지 못하는 문제를 해결하는 것이 목표입니다.#Review#3D Scene Synthesis#Fine-Grained Evaluation#Tool-Augmented LLMs#Embodied AI#Vision-Language Models#Benchmark#Multi-Hop Grounding2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies본 논문은 학습 기반 로봇 제어 알고리즘, 특히 Vision-Language-Action (VLA) 모델 의 대규모, 재현성 및 확장 가능한 실제 로봇 평가를 위한 도전 과제를 해결하는 것을 목표로 합니다.#Review#Robotics#Real-robot Evaluation#Embodied AI#Vision-Language-Action Models#Benchmarking#Online Testing System#Robotics Control#Large-scale Evaluation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process기존 VLA(Vision-Language-Action) 모델이 비전 생성 및 행동 예측을 분리하여 다루거나 외부 전문가에 의존하는 한계를 극복하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Diffusion Models#Discrete Denoising#Multimodal Learning#Robotics#Embodied AI#Joint Generation#Action Prediction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] A Survey on Efficient Vision-Language-Action Models이 논문은 대규모 Vision-Language-Action (VLA) 모델 이 직면한 막대한 계산 및 데이터 요구사항으로 인해 실제 로봇 환경에 배포되기 어려운 문제를 해결하는 것을 목표로 합니다.#Review#Embodied AI#Robotic Manipulation#VLA Models#Efficient AI#Model Compression#Efficient Training#Data Collection#Multimodal AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction본 논문은 수동적 관찰에 의존하는 기존 비디오 생성 모델의 한계(물리적 인과관계 이해 부족)를 극복하고, 대규모의 인과관계가 풍부한 실제 상호작용 데이터 를 통해 로봇이 물리적 직관을 습득할 수 있는 세계 모델(World Model) 을 개발하는 것을 목표로 합니다.#Review#World Model#Embodied AI#Robotics#Diffusion Models#Physical Reasoning#Vision Language Models#Interaction Data#Self-Optimization2025년 9월 29일댓글 수 로딩 중
[논문리뷰] SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent이 논문은 기존 3D 장면 합성 방법론들이 고정된 카테고리, 부족한 객체 디테일, 물리적 불일치, 복잡한 사용자 지시와의 낮은 정합성 등의 한계를 가지는 문제를 해결하고자 합니다.#Review#3D Scene Synthesis#Agentic Framework#LLMs#Self-Reflection#Tool-Use#Physical Plausibility#Iterative Refinement#Embodied AI2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue현재 VLA(Vision-Language-Action) 기반 로봇 이 모호한 지시를 처리하지 못하고 수동적으로 명령을 실행하는 한계를 해결하는 것이 목표입니다.#Review#Embodied AI#Human-Robot Interaction#Multi-turn Dialogue#Instruction Following#Vision-Language Models#Diffusion Models#Ambiguity Resolution#Low-level Actions2025년 9월 22일댓글 수 로딩 중
[논문리뷰] PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era본 논문은 기존 핀홀(pinhole) 비전에 비해 연구가 뒤처진 옴니디렉셔널(omnidirectional) 비전의 잠재력을 발현하고, 데이터 병목 현상, 모델 역량 한계, 애플리케이션 공백과 같은 주요 문제를 해결하여 신체화된 AI(Embodied AI) 시대에 포괄적인 환경 인식을 달성하는 것을 목표로 합니다.#Review#Omnidirectional Vision#Embodied AI#Panoramic Perception#Multi-modal Learning#Dataset Development#Robot Navigation#Spatial Reasoning#System Architecture2025년 9월 18일댓글 수 로딩 중
[논문리뷰] InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts본 연구는 Embodied AI 의 발전을 위해 기존 3D 장면 데이터셋이 가진 규모, 다양성, 사실적인 레이아웃(특히 작은 객체), 심각한 객체 충돌 문제를 해결하고자 합니다.#Review#Embodied AI#3D Scene Dataset#Simulation Environment#Scene Generation#Point-Goal Navigation#Realistic Layouts#Object Interaction#Real-to-Sim2025년 9월 16일댓글 수 로딩 중
[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다.#Review#Embodied AI#Multimodal LLMs#3D Grounding#Task-Adaptive Reasoning#Embodiment-Aware Planning#Robotics#Spatial Reasoning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.#Review#Vision-Language-Action#Embodied AI#Visual Foresight#Predictive Inverse Dynamics#Mixture-of-Transformer#Robot Manipulation#Multi-stage Training#Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Robix: A Unified Model for Robot Interaction, Reasoning and Planning본 논문은 일반ist 로봇이 복잡한 장기 작업을 추론하고 자연스러운 인간 상호작용에 참여할 수 있도록 단일 비전-언어 아키텍처 내에서 로봇 추론, 태스크 플래닝, 자연어 상호작용을 통합하는 Robix 모델을 제안합니다.#Review#Robot Learning#Vision-Language Models (VLMs)#Embodied AI#Human-Robot Interaction (HRI)#Task Planning#Reinforcement Learning (RL)#Chain-of-Thought (CoT) Reasoning#Robotics2025년 9월 4일댓글 수 로딩 중
[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control본 연구는 기존 VLA 모델들이 가진 제한된 도메인 및 유연성 문제를 해결하고, 개방형 환경에서 인간 수준의 유연한 다중 모달 추론 및 물리적 상호작용 을 가능하게 하는 일반ist 로봇 제어를 목표로 합니다.#Review#Embodied AI#Robot Control#Vision-Language-Action Models#Multimodal Pretraining#Flow Matching#Foundation Models#Generalization#Real-world Robotics2025년 9월 1일댓글 수 로딩 중
[논문리뷰] RynnEC: Bringing MLLMs into Embodied World본 논문의 핵심 목표는 기존 Multi-modal Large Language Models ( MLLM )이 실제 물리적 세계를 이해하는 데 부족했던 기초적인 시각 인지 능력 의 한계를 극복하는 것입니다.#Review#Multi-modal Large Language Models#Embodied AI#Embodied Cognition#Video Understanding#Instance Segmentation#Spatial Reasoning#Robotics2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.#Review#Embodied AI#Robotic Manipulation#Reinforcement Learning#Vision-Language Model#Pointing#Zero-shot Generalization2025년 8월 20일댓글 수 로딩 중
[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks본 연구는 대규모 언어 모델(LLM)이 물리적 상호작용, 도구 사용, 다중 에이전트 협업이 필요한 구체화된(embodied) 태스크 에서 얼마나 잘 추론하는지 평가하기 위한 종합적인 프레임워크인 OmniEAR 를 제시합니다.#Review#Embodied AI#Agent Reasoning#LLM#Benchmarking#Tool Use#Multi-Agent Systems#Physical Interaction#Constraint Reasoning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation본 논문은 로봇 조작을 위한 통합된 세계 파운데이션 플랫폼 (Genie Envisioner) 을 제시하여, 정책 학습, 평가 및 시뮬레이션을 단일 비디오-생성 프레임워크 내에서 통합하는 것을 목표로 합니다. 이는 기존 로봇 개발 과정의 단편적인 단계를 극복하고 확장 가능하며 범용적인 지능형 로봇 시스템 구축을 지향합니다.#Review#Robotic Manipulation#World Model#Video Generation#Diffusion Model#Embodied AI#Foundation Model#Robotics Simulation#Policy Learning2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language Models#Synthetic Worlds#Transfer Learning#PPO#Actor-Critic#Embodied AI2025년 8월 7일댓글 수 로딩 중
[논문리뷰] RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems이 논문은 물리적 환경에 배치된 로봇 에이전트의 평생 학습(Lifelong Learning) 및 장기 계획(Long-term Planning) 을 위한 뇌에서 영감을 받은 다중 메모리 프레임워크인 RoboMemory 를 제안합니다.#Review#Brain-inspired AI#Lifelong Learning#Embodied AI#Multi-memory Systems#Knowledge Graph#Robotics#Closed-Loop Planning2025년 8월 5일댓글 수 로딩 중
[논문리뷰] IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation본 논문은 이미지-목표 내비게이션(Image-goal Navigation)의 근본적인 문제를 해결하는 것을 목표로 합니다. 기존의 종단 간 RL 학습이나 모듈 기반 접근 방식이 탐색된 3D 환경과 목표 이미지 간의 기하학적 관계를 효과적으로 모델링하지 못하는 한계를 극복하고자 합니다.#Review#Image-goal Navigation#3D Gaussian Splatting (3DGS)#Incremental Scene Representation#Coarse-to-fine Localization#Embodied AI#Robotics#Differentiable Rendering2025년 8월 4일댓글 수 로딩 중
[논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks본 논문은 인간의 다중모달 공간 추론 능력을 대규모 모델(MLLMs)에 적용하는 연구의 현황을 체계적으로 검토하고, 이 분야의 발전을 위한 공개 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Spatial Reasoning#Survey#Benchmarks#3D Vision#Embodied AI#Vision-Language Navigation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#3D Spatial Reasoning#Embodied AI#Foundation Models#Multimodal Fusion#Robot Manipulation#Modality Transferability#Action Grounding2025년 10월 29일댓글 수 로딩 중
[논문리뷰] VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting기존 VLM 기반 로봇 시스템의 고정적이고 비동시적인 상호작용 패러다임이 유연한 인간-로봇 협력을 저해하는 문제를 해결하는 것을 목표로 합니다. 로봇이 인간처럼 동시에 보고, 듣고, 말하고, 행동하며 실시간 사용자 개입에 동적으로 반응할 수 있는 프레임워크를 구축하고자 합니다.#Review#Embodied AI#Human-Robot Interaction#Vision-Language Models#Concurrency#Interruption#Robotics Control#Dual-Model Architecture#Special Tokens2025년 10월 28일댓글 수 로딩 중
[논문리뷰] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning본 논문은 소규모 Vision-Language Model(VLM)이 복잡한 Embodied AI 태스크를 수행하는 데 필요한 지식과 기술 부족 문제를 해결하고자 합니다.#Review#Embodied AI#Vision Language Models (VLMs)#Reinforcement Learning (RL)#Prior Learning#Supervised Fine-tuning (SFT)#Embodied Agents2025년 10월 15일댓글 수 로딩 중
[논문리뷰] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs본 논문은 현대 다중 모달 대규모 언어 모델(MLLMs) 이 물리적 도구를 얼마나 깊이 이해하는지 정량적으로 평가하는 것을 목표로 합니다. 특히, 임베디드 AI 에이전트가 실제 환경에서 도구를 효과적으로 사용하고, 심지어 새로운 도구를 만들어내는 데 필요한 물리적 도구 이해 능력의 현황과 한계를 파악하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Physical Tool Understanding#Benchmarking#Embodied AI#Visual Question Answering (VQA)#Tool Affordances#Reasoning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI본 논문은 물리적 상호작용 데이터 수집의 높은 비용으로 인해 Embodied AI 의 확장이 제한되는 문제를 해결하고자 합니다. 특히, 데스크톱 환경(주로 게임)의 풍부한 센서모터 상호작용을 활용하여 로봇의 Embodied AI 작업을 위한 효과적인 사전 훈련(pretraining) 기반 을 구축하는 것을 목표로 합니다.#Review#Embodied AI#Vision-Action Pretraining#Desktop Data#Inverse Dynamics Model (IDM)#Pseudo-labeling#Robotics#Generalization#Data Compression2025년 10월 13일댓글 수 로딩 중
[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments본 연구는 기존 MLLM이 정적이고 완전히 관찰 가능한 환경에 국한되어 실제 물리적 환경에서의 정보 불완전성 문제에 취약하다는 한계를 지적합니다.#Review#Active Visual Reasoning#MLLM#Physical Environments#Partially Observable#Markov Decision Process#Chain-of-Thought#Embodied AI#CLEVR-AVR2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets본 논문은 실체화된 AI 에이전트 훈련을 위한 확장 가능한 환경 구축의 문제를 해결하고자 합니다. 기존 월드 시뮬레이터는 콘텐츠 다양성 또는 물리 정확도 중 하나에 국한되는 한계가 있으며, 특히 수동 자산 생성의 어려움으로 인해 확장성이 제한됩니다.#Review#3D Asset Generation#Simulation-Ready Assets#Diffusion Models#Physically Based Rendering (PBR)#Embodied AI#Robotic Simulation#Image-to-3D#Foundation Model2025년 10월 24일댓글 수 로딩 중
[논문리뷰] GigaBrain-0: A World Model-Powered Vision-Language-Action Model본 논문은 일반 로봇용 VLA(Vision-Language-Action) 모델이 직면한 대규모 실제 로봇 데이터 수집의 비효율성 및 제한된 다양성 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Model#World Model#Data Augmentation#Robot Generalization#Embodied AI#RGBD#Chain-of-Thought2025년 10월 23일댓글 수 로딩 중
[논문리뷰] World-in-World: World Models in a Closed-Loop World본 논문은 기존 세계 모델(World Models, WM) 평가 프로토콜이 시각적 품질에만 치중하여 실제 환경에 대한 embodied agent의 태스크 성공 여부 를 제대로 측정하지 못하는 문제를 해결하고자 합니다.#Review#World Models#Embodied AI#Closed-Loop Evaluation#Online Planning#Data Scaling#Controllability#Robotic Manipulation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.#Review#Vision-Language-Action Models#Reinforcement Learning#World Models#Fine-tuning#Embodied AI#Robotics#Reward Design#Distribution Shift2025년 10월 2일댓글 수 로딩 중
[논문리뷰] OceanGym: A Benchmark Environment for Underwater Embodied Agents본 연구는 해저 환경의 낮은 가시성, 동적 해류 등의 극한 조건에서 AI 기반 자율 수중 로봇(AUV) 이 직면하는 심각한 인지 및 의사결정 문제들을 해결하기 위해, 포괄적인 벤치마크 환경인 OCEANGYM 을 제안합니다. 궁극적으로는 실제 환경에 적용 가능한 강력한 자율 에이전트 개발을 촉진하는 것을 목표로 합니다.#Review#Underwater Robotics#Embodied AI#Benchmark Environment#Multi-modal Large Language Models#Autonomous Underwater Vehicles#Perception#Decision-Making#Simulation2025년 10월 1일댓글 수 로딩 중