#4D Understanding

2개의 포스트

[논문리뷰] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

본 논문은 Vision-Language Models (VLMs)이 동적 공간 추론(DSR)에 취약하다는 문제점을 해결하고자 합니다. 특히, 3D 공간에서 시간의 흐름에 따른 객체 기하학 및 관계의 변화를 이해하는 능력을 향상시키기 위해 확장 가능한 4D 인식 훈련 리소스의 부족을 해소하는 것을 목표로 합니다.

#Review #Dynamic Spatial Reasoning #Vision-Language Models #4D Understanding #Automated Data Generation #Geometry Selection Module #Video Analysis #Multimodal AI

2025년 12월 24일

[논문리뷰] 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

본 논문은 기존 MLLM이 3D 구조와 시간적 역학(4D)을 추론하는 능력이 부족하며, 특히 4D 인지 및 시간적 이해 가 약하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #4D Understanding #Perceptual Distillation #Region-level VQA #Video Question Answering #Temporal Perception #Depth Perception

2025년 12월 21일