[논문리뷰] Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly본 논문은 현대의 LVLM이 일상적인 비디오 이해와 조작 과제를 해결하기 위한 세밀한 시공간적 추론 능력이 부족하다는 문제에서 시작한다.#Review#Large Vision-Language Models#Video Understanding#Spatio-Temporal Reasoning#Furniture Assembly#Object Tracking#Contact Reasoning2026년 5월 31일댓글 수 로딩 중
[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations기존 캐릭터 애니메이션 방법론이 복잡한 모션, 크로스-아이덴티티 애니메이션, 다중 캐릭터 상호작용 등 스튜디오 수준의 제작 요구 사항을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Character Animation#3D Pose Representation#In-Context Learning#Diffusion Transformer#Studio-Grade Animation#Spatio-Temporal Reasoning#Video Generation2025년 12월 7일댓글 수 로딩 중
[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence기존 오디오 벤치마크가 텍스트로 쉽게 표현 가능한 의미론적 내용에 치중하여 미세한 지각 추론 능력을 간과하는 문제를 해결하는 것을 목표로 합니다.#Review#Audio Intelligence#Spatio-Temporal Reasoning#4D Audio#Benchmark#Large Audio-Language Models#Perceptual Reasoning#Multimodal LLMs2025년 10월 29일댓글 수 로딩 중
[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving본 논문은 자율주행 시나리오에서 기존 Vision Language Models (VLMs)이 정성적 판단에 그치고 정량적 시공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Visual Question Answering (VQA)#Autonomous Driving#Risk Assessment#Spatio-Temporal Reasoning#Large Vision Models (VLMs)#Dataset#Bird-Eye-View (BEV)#Fine-tuning2025년 10월 6일댓글 수 로딩 중