[논문리뷰] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models본 연구는 기존 Vision-Language Models (VLMs) 이 3D 공간 레이아웃, 움직임 패턴, 시간적 동역학을 포함하는 물리 기반 추론에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Physics Reasoning#Motion Tracking#Spatial-Temporal Grounding#Video QA#AIGC Analysis#Reinforcement Learning2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding본 논문은 대규모 비디오 모델(LVM)이 입력 비디오와 불일치하는 내용을 생성하는 '환각(hallucination)' 문제를 해결하는 것을 목표로 합니다.#Review#Video Hallucination#Large Video Models (LVMs)#Hierarchical Reasoning#Spatial-Temporal Grounding#Diagnostic Framework#Benchmark Dataset#Multimodal AI2025년 9월 16일댓글 수 로딩 중