[논문리뷰] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models본 연구는 기존 Vision-Language Models (VLMs) 이 3D 공간 레이아웃, 움직임 패턴, 시간적 동역학을 포함하는 물리 기반 추론에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Physics Reasoning#Motion Tracking#Spatial-Temporal Grounding#Video QA#AIGC Analysis#Reinforcement Learning2025년 11월 24일댓글 수 로딩 중