#Multi-View Video

2개의 포스트

[논문리뷰] CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

자율 주행을 위한 포괄적인 세계 모델을 구축하기 위해, 다양한 제어 입력 하에 장기간의 다중 시점 비디오를 생성하고 동시에 4D 장면 재구성 기능을 제공하는 것을 목표로 합니다. 특히, 기존 비디오 생성 모델들이 명시적인 3D 정보 를 다루지 못해 자율 주행 시나리오에 적용하기 어려운 한계를 극복하고자 합니다.

#Review #Autonomous Driving #Video Generation #Diffusion Models #Spatial-Temporal Reconstruction #3D Gaussian Splatting #Variational Autoencoder #World Modeling #Multi-View Video

2025년 10월 16일

[논문리뷰] ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation

본 논문은 기존의 블랙박스 비디오 분류기가 다중 시점(multi-view) 컨텍스트를 무시하고 설명 가능성이 부족하다는 문제점을 해결하고자 합니다.

#Review #Video-Language Model #Proficiency Estimation #Multi-View Video #Action Quality Assessment #Lightweight Model #Generative Feedback

2025년 10월 1일