[논문리뷰] VLM3: Vision Language Models Are Native 3D Learners본 논문은 표준 VLM이 복잡한 전용 설계 없이도 3D 이해를 수행할 수 있음을 증명하기 위해 수행되었다.#Review#Vision Language Models#3D Understanding#Metric Depth Estimation#Pixel Correspondence#Camera Pose Estimation#Focal Length Unification#Scalable Training2026년 5월 31일댓글 수 로딩 중