#Video Foundation Models

5개의 포스트

[논문리뷰] GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors

본 논문은 휴머노이드 로봇의 loco-manipulation 정책을 학습시키기 위한 데이터 수집의 높은 비용과 확장성 문제를 해결하고자 한다.

#Review #Humanoid #Loco-Manipulation #Video Foundation Models #3D Assets #Sim-to-Real #HOI Reconstruction

2026년 6월 3일

[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation Models

이 논문은 비디오 파운데이션 모델(VFM)의 통합된 역량을 평가하기 위한 파편화되고 제한적인 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Video Foundation Models #Unified Evaluation #Multi-task Learning #Video Understanding #Video Generation #Video Editing #Video Reconstruction #Agentic Evaluation #Cinematic Dimensions

2026년 2월 25일

[논문리뷰] How Much 3D Do Video Foundation Models Encode?

본 논문은 대규모 비디오 데이터로 사전 훈련된 Video Foundation Models (VidFMs) 내에 글로벌 3D 이해도가 자연스럽게 내재되어 있는지를 정량적으로 탐구하는 것을 목표로 합니다.

#Review #Video Foundation Models #3D Understanding #3D Reconstruction #Model Agnostic #Feature Probing #Diffusion Models #Temporal Reasoning

2025년 12월 25일

[논문리뷰] InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision

본 논문은 노이즈 많고 제한적인 비디오-텍스트 지도 학습의 한계와 저수준 픽셀 재구성에 머무르거나 숏컷 학습을 유도하는 기존 Masked Video Modeling (MVM) 의 문제점을 해결하고자 합니다.

#Review #Video Foundation Models #Self-Supervised Learning #Masked Video Modeling #Video-Text Supervision-Free #Encoder-Predictor-Decoder #Diffusion Decoder #Semantic Alignment #Latent World Model

2025년 12월 1일

[논문리뷰] World Simulation with Video Foundation Models for Physical AI

본 논문은 물리 AI(Physical AI) 시스템의 훈련 시 발생하는 높은 비용과 위험성을 해결하기 위해 고품질의 가상 세계 시뮬레이터를 제공하는 것을 목표로 합니다.

#Review #Physical AI #World Simulation #Video Foundation Models #Flow Matching #Reinforcement Learning #Robotics #Autonomous Driving #Synthetic Data Generation

2025년 11월 9일