[논문리뷰] Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly본 논문은 현대의 LVLM이 일상적인 비디오 이해와 조작 과제를 해결하기 위한 세밀한 시공간적 추론 능력이 부족하다는 문제에서 시작한다.#Review#Large Vision-Language Models#Video Understanding#Spatio-Temporal Reasoning#Furniture Assembly#Object Tracking#Contact Reasoning2026년 5월 31일댓글 수 로딩 중