[논문리뷰] From Perception to Action: An Interactive Benchmark for Vision Reasoning기존 VLM 평가가 구조 불가지론적이고 단일 턴 질의응답(VQA)에 치중하여 동적 환경에서 기하학, 접촉, 지지 관계가 행동 가능성을 어떻게 제약하는지에 대한 에이전트의 추론 능력을 평가하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language Models#Physical Reasoning#Interactive AI#3D Benchmark#Mechanical Puzzles#Spatial Packing#Embodied AI2026년 2월 24일댓글 수 로딩 중
[논문리뷰] QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models본 논문은 최신 Vision-Language Models (VLMs) 이 물리적 특성을 정량적으로 추론하는 능력에 대한 불확실성을 해결하고자 합니다.#Review#Vision-Language Models#Physical Reasoning#Quantitative Benchmark#Kinematics#Mean Relative Accuracy#Video-Text#Embodied AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities본 논문은 로봇 공학 분야에서 Diffusion Policy 와 같은 생성 모델이 겪는 높은 계산 비용, 노출 편향, 불안정한 추론 동역학 등의 문제를 해결하고, 로봇에게 물리적 추론 능력을 부여하는 것을 목표로 합니다.#Review#Energy-Based Models (EBMs)#Diffusion Policy#Robotics#Behavior Cloning#Physical Reasoning#Uncertainty Modeling#Emergent Behavior#Robot Manipulation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction본 논문은 수동적 관찰에 의존하는 기존 비디오 생성 모델의 한계(물리적 인과관계 이해 부족)를 극복하고, 대규모의 인과관계가 풍부한 실제 상호작용 데이터 를 통해 로봇이 물리적 직관을 습득할 수 있는 세계 모델(World Model) 을 개발하는 것을 목표로 합니다.#Review#World Model#Embodied AI#Robotics#Diffusion Models#Physical Reasoning#Vision Language Models#Interaction Data#Self-Optimization2025년 9월 29일댓글 수 로딩 중
[논문리뷰] DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning본 논문은 Vision Language Models(VLMs)이 복잡하고 동적인 물리 환경에서 정확한 행동 계획 및 공간/시간 추론 능력 에 한계를 보이는 문제를 해결하고자 합니다.#Review#Vision Language Models (VLMs)#Agentic AI#Physical Reasoning#Benchmark#Simulation Environments#Action Planning#Interactive AI2025년 8월 8일댓글 수 로딩 중