#Video Analysis

4개의 포스트

[논문리뷰] VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

본 연구는 3D Human Motion 데이터셋의 희소성과 구축 비용 문제를 극복하기 위해 2D 영상으로부터 3D 모션을 생성하는 새로운 접근 방식을 제안합니다.

#Review #3D Human Motion Generation #Diffusion Models #2D Supervision #Motion Synthesis #Video Analysis

2026년 6월 11일

[논문리뷰] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

본 논문은 Vision-Language Models (VLMs)이 동적 공간 추론(DSR)에 취약하다는 문제점을 해결하고자 합니다. 특히, 3D 공간에서 시간의 흐름에 따른 객체 기하학 및 관계의 변화를 이해하는 능력을 향상시키기 위해 확장 가능한 4D 인식 훈련 리소스의 부족을 해소하는 것을 목표로 합니다.

#Review #Dynamic Spatial Reasoning #Vision-Language Models #4D Understanding #Automated Data Generation #Geometry Selection Module #Video Analysis #Multimodal AI

2025년 12월 24일

[논문리뷰] DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

기존 4D 데이터셋이 다양성, 물리적 스케일, 다중 모달리티 주석 측면에서 제한적이어서 파운데이션 모델이 단일 카메라 비디오에서 실세계 동역학을 정확하게 해석하는 데 한계가 있었습니다.

#Review #4D World Modeling #Multimodal Data #Dynamic Scenes #Metric-Scale #Bundle Adjustment #Foundation Models #Video Analysis #Data Curation

2025년 12월 4일

[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

논문은 Referring Video Object Segmentation (RVOS) 의 높은 계산 비용과 확장성 문제를 해결하고자 합니다.

#Review #Referring Video Object Segmentation #Foundation Models #Prompt Engineering #Object Tracking #SAM #Video Analysis #Prompt Preference Learning

2025년 10월 13일