[논문리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery본 연구는 단일 이미지로부터 강건한 전신 3D 인체 메시 복원(HMR) 을 목표로 하는 SAM 3D Body (3DB) 모델을 제안합니다. 특히, 도전적인 자세, 심각한 폐색, 그리고 흔치 않은 시점 등 다양한 실제 환경 조건에서 기존 HMR 모델의 낮은 견고성 및 부정확성을 개선하고자 합니다.#Review#Human Mesh Recovery (HMR)#Full-Body Pose Estimation#Promptable Models#Momentum Human Rig (MHR)#Data Engine#Encoder-Decoder#Robustness#3D Vision2026년 2월 18일댓글 수 로딩 중
[논문리뷰] 3D Aware Region Prompted Vision Language Model본 논문은 단일 뷰 2D 이미지와 다중 뷰 3D 데이터를 공유된 시각 토큰 공간으로 연결하는 3D-aware Vision-Language Model (VLM) 인 SR-3D 를 제안하여, 복잡한 3D 장면에서 유연하고 정확한 공간 추론 능력을 제공하는 것을 목표로 합니다.#Review#3D Vision#Vision-Language Models#Spatial Reasoning#Region Prompting#Multi-view Learning#Depth Estimation#Unified Representation#Generative AI2025년 9월 17일댓글 수 로딩 중
[논문리뷰] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations본 논문은 대규모의 실세계 동적 비디오 데이터셋에 부족한 명시적인 공간 정보 및 풍부한 의미론적 주석의 부재 문제를 해결하고자 합니다. 이는 3D 재구성, 세계 모델링, 그리고 동적 장면 합성과 같은 AI/ML 분야의 발전을 저해하며, 물리적으로 일관성 있는 모델 학습을 위한 핵심 자원의 필요성을 강조합니다.#Review#Video Dataset#Spatial Annotation#Camera Pose Estimation#Depth Map#Structured Caption#Motion Instruction#3D Vision#World Modeling2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views본 논문은 3D 포인트 클라우드 학습에서 기존 단일 뷰(single-view) 기반 마스킹 재구성(masked reconstruction) 방식의 한계를 극복하고, 더 다양하고 도전적인 두 뷰(two-view) 기반 사전 학습 패러다임 을 탐구하는 것을 목표로 합니다.#Review#Point Cloud Learning#Self-Supervised Learning#Cross Reconstruction#Decoupled Views#Generative Models#Positional Encoding#3D Vision2025년 9월 3일댓글 수 로딩 중
[논문리뷰] MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting본 논문은 극도로 희소한(sparse-view) 이미지 로부터 정확한 3D 장면의 표면을 재구성하는 문제를 해결하고자 합니다.#Review#Sparse-View#Surface Reconstruction#Gaussian Splatting#2DGS#Novel View Synthesis#Generalizable#Mesh Extraction#3D Vision2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Multimodal Referring Segmentation: A Survey이 논문은 이미지, 비디오, 3D 장면과 같은 다양한 시각적 맥락에서 텍스트 또는 오디오 참조 표현을 기반으로 특정 객체를 분할하는 다중모드 참조 분할(Multimodal Referring Segmentation) 분야에 대한 포괄적인 최신 조사를 제공하는 것을 목표로 합니다.#Review#Multimodal Learning#Referring Segmentation#Vision-Language Models#Image Segmentation#Video Segmentation#3D Vision#Survey2025년 8월 4일댓글 수 로딩 중
[논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks본 논문은 인간의 다중모달 공간 추론 능력을 대규모 모델(MLLMs)에 적용하는 연구의 현황을 체계적으로 검토하고, 이 분야의 발전을 위한 공개 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Spatial Reasoning#Survey#Benchmarks#3D Vision#Embodied AI#Vision-Language Navigation2025년 10월 30일댓글 수 로딩 중