#Spatio-Temporal Reasoning

4개의 포스트

[논문리뷰] Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly

본 논문은 현대의 LVLM이 일상적인 비디오 이해와 조작 과제를 해결하기 위한 세밀한 시공간적 추론 능력이 부족하다는 문제에서 시작한다.

#Review #Large Vision-Language Models #Video Understanding #Spatio-Temporal Reasoning #Furniture Assembly #Object Tracking #Contact Reasoning

2026년 5월 31일

[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations

기존 캐릭터 애니메이션 방법론이 복잡한 모션, 크로스-아이덴티티 애니메이션, 다중 캐릭터 상호작용 등 스튜디오 수준의 제작 요구 사항을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Character Animation #3D Pose Representation #In-Context Learning #Diffusion Transformer #Studio-Grade Animation #Spatio-Temporal Reasoning #Video Generation

2025년 12월 7일

[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

기존 오디오 벤치마크가 텍스트로 쉽게 표현 가능한 의미론적 내용에 치중하여 미세한 지각 추론 능력을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Audio Intelligence #Spatio-Temporal Reasoning #4D Audio #Benchmark #Large Audio-Language Models #Perceptual Reasoning #Multimodal LLMs

2025년 10월 29일

[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

본 논문은 자율주행 시나리오에서 기존 Vision Language Models (VLMs)이 정성적 판단에 그치고 정량적 시공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Visual Question Answering (VQA)#Autonomous Driving #Risk Assessment #Spatio-Temporal Reasoning #Large Vision Models (VLMs)#Dataset #Bird-Eye-View (BEV)#Fine-tuning

2025년 10월 6일