[논문리뷰] Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models본 논문은 Spatial Intelligence를 구축하는 데 있어 VLM과 VGM 중 어느 사전 학습(Pre-training) 패러다임이 더 우수한 표현 체계(Representation substrate)를 제공하는지 분석한다 .#Review#Spatial Intelligence#Vision-Language Models#Video Generation Models#Frozen-Feature Probing#Representation Learning#Semantic Tagging#3D Geometry Prediction2026년 6월 1일댓글 수 로딩 중