[논문리뷰] 3D Aware Region Prompted Vision Language Model본 논문은 단일 뷰 2D 이미지와 다중 뷰 3D 데이터를 공유된 시각 토큰 공간으로 연결하는 3D-aware Vision-Language Model (VLM) 인 SR-3D 를 제안하여, 복잡한 3D 장면에서 유연하고 정확한 공간 추론 능력을 제공하는 것을 목표로 합니다.#Review#3D Vision#Vision-Language Models#Spatial Reasoning#Region Prompting#Multi-view Learning#Depth Estimation#Unified Representation#Generative AI2025년 9월 17일댓글 수 로딩 중