[논문리뷰] From Perception to Action: An Interactive Benchmark for Vision Reasoning기존 VLM 평가가 구조 불가지론적이고 단일 턴 질의응답(VQA)에 치중하여 동적 환경에서 기하학, 접촉, 지지 관계가 행동 가능성을 어떻게 제약하는지에 대한 에이전트의 추론 능력을 평가하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language Models#Physical Reasoning#Interactive AI#3D Benchmark#Mechanical Puzzles#Spatial Packing#Embodied AI2026년 2월 24일댓글 수 로딩 중