[논문리뷰] Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding최근 Multimodal Large Language Models (MLLMs)는 인상적인 Semantic Capability를 보여주지만, Fine-grained geometric reasoning 및 Physical dynamics와 관련된 'Spatial blindness' 문제를 겪고 있습니다.#Review#Video Generation Models#3D Priors#Scene Understanding#Spatial Reasoning#Multimodal Large Language Models (MLLMs)#Latent World Simulator#Adaptive Gated Fusion#Generative AI2026년 3월 19일댓글 수 로딩 중
[논문리뷰] PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction본 연구는 단일 RGB 이미지로부터 완전한 3D 실내 장면의 메쉬를 자동회귀 방식으로 재구성하는 것을 목표로 합니다.#Review#Single-View 3D Reconstruction#Autoregressive Models#Mesh Generation#Scene Understanding#Transformer#Point Cloud Features#Pose Estimation2026년 3월 8일댓글 수 로딩 중
[논문리뷰] SAM 3D: 3Dfy Anything in Images본 논문은 단일 이미지로부터 시각적으로 기반한 3D 객체 재구성을 위한 SAM 3D 라는 생성 모델을 제시합니다. 가려짐 과 장면 복잡성 이 흔한 자연 이미지에서 객체의 기하학적 형태, 텍스처, 레이아웃 을 예측하여 완전한 장면 재구성을 가능하게 하는 것을 목표로 합니다.#Review#3D Reconstruction#Generative Models#Single Image 3D#Object Reconstruction#Scene Understanding#Data Engine#Model-in-the-Loop#Human Preference2025년 11월 20일댓글 수 로딩 중
[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.#Review#3D Vision-Language Models#Reasoning#Scene Understanding#Reinforcement Learning#Chain-of-Thought#Dynamic View Selection#Multi-task Learning2025년 8월 4일댓글 수 로딩 중
[논문리뷰] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction기존의 3D 재구성 및 고수준 의미 이해를 분리하는 단편적인 접근 방식의 한계를 극복하고, 기하학적 구조와 인스턴스 수준의 문맥적 이해를 단일 표현 으로 통합하는 Instance-Grounded Geometry Transformer (IGGT) 프레임워크를 개발하는 것이 목표입니다.#Review#Semantic 3D Reconstruction#Instance Grounding#Geometry Transformer#Multi-view Consistency#Scene Understanding#InsScene-15K#Vision-Language Models#Cross-Modal Fusion2025년 10월 28일댓글 수 로딩 중