#Physical Reasoning

5개의 포스트

[논문리뷰] From Perception to Action: An Interactive Benchmark for Vision Reasoning

기존 VLM 평가가 구조 불가지론적이고 단일 턴 질의응답(VQA)에 치중하여 동적 환경에서 기하학, 접촉, 지지 관계가 행동 가능성을 어떻게 제약하는지에 대한 에이전트의 추론 능력을 평가하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models #Physical Reasoning #Interactive AI #3D Benchmark #Mechanical Puzzles #Spatial Packing #Embodied AI

2026년 2월 24일

[논문리뷰] QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

본 논문은 최신 Vision-Language Models (VLMs) 이 물리적 특성을 정량적으로 추론하는 능력에 대한 불확실성을 해결하고자 합니다.

#Review #Vision-Language Models #Physical Reasoning #Quantitative Benchmark #Kinematics #Mean Relative Accuracy #Video-Text #Embodied AI

2025년 12월 23일

[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

본 논문은 로봇 공학 분야에서 Diffusion Policy 와 같은 생성 모델이 겪는 높은 계산 비용, 노출 편향, 불안정한 추론 동역학 등의 문제를 해결하고, 로봇에게 물리적 추론 능력을 부여하는 것을 목표로 합니다.

#Review #Energy-Based Models (EBMs)#Diffusion Policy #Robotics #Behavior Cloning #Physical Reasoning #Uncertainty Modeling #Emergent Behavior #Robot Manipulation

2025년 11월 9일

[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction

본 논문은 수동적 관찰에 의존하는 기존 비디오 생성 모델의 한계(물리적 인과관계 이해 부족)를 극복하고, 대규모의 인과관계가 풍부한 실제 상호작용 데이터 를 통해 로봇이 물리적 직관을 습득할 수 있는 세계 모델(World Model) 을 개발하는 것을 목표로 합니다.

#Review #World Model #Embodied AI #Robotics #Diffusion Models #Physical Reasoning #Vision Language Models #Interaction Data #Self-Optimization

2025년 9월 29일

[논문리뷰] DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

본 논문은 Vision Language Models(VLMs)이 복잡하고 동적인 물리 환경에서 정확한 행동 계획 및 공간/시간 추론 능력 에 한계를 보이는 문제를 해결하고자 합니다.

#Review #Vision Language Models (VLMs)#Agentic AI #Physical Reasoning #Benchmark #Simulation Environments #Action Planning #Interactive AI

2025년 8월 8일