#3D Reconstruction

32개의 포스트

[논문리뷰] SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

본 논문은 현재 Spatial Foundation Models (SFMs)이 standard dataset에서 인상적인 성능을 보여주지만, 다양한 downstream task, 임의의 viewpoint, 변화하는 scene domain, 다양한 input density, 그리고 특정 hardware constraint에 걸쳐 robust하게 generalizing할 수 있는 all-round player인지에 대한 근본적인…

#Review #Spatial Foundation Models #3D Reconstruction #Benchmark #Domain Generalization #Input Density #Embodied AI

2026년 5월 26일

[논문리뷰] Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction

본 논문은 현대의 Transformer 기반 3D reconstruction 파이프라인이 겪는 연산 효율성 및 저정밀도 실행 시의 불안정성 문제를 해결하고자 합니다.

#Review #3D Reconstruction #Transformer #Sparse Linear Attention #FP8-aware QAT #Model-Agnostic #Knowledge Distillation #Algorithm-System Co-design

2026년 5월 12일

[논문리뷰] SVGS: Enhancing Gaussian Splatting Using Primitives with Spatially Varying Colors

본 논문은 기존 Gaussian Splatting 방식이 복잡한 텍스처나 기하학적 형태를 표현할 때 비효율적이라는 문제를 해결하고자 합니다 .

#Review #Gaussian Splatting #Novel-view Synthesis #Spatially Varying #Gaussian Surfels #Movable Kernels #3D Reconstruction

2026년 5월 5일

[논문리뷰] Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

본 논문은 기존 Unified World Model들이 2D 픽셀 공간에만 국한되어 기하학적 구조에 대한 이해가 부족하며, 고차원 비디오 생성과 저차원 행동 예측 사이의 효율적인 균형을 맞추지 못한다는 문제를 해결하고자 한다.

#Review #Embodied AI #World Models #Diffusion Transformer #3D Reconstruction #Robotic Manipulation #Asynchronous Denoising #Unified Modeling

2026년 4월 29일

[논문리뷰] AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

본 논문은 임의의 불규칙한 Sparse-view로부터 고품질의 대규모 3D 장면을 복원하는 문제를 해결하고자 합니다. 기존의 확산 모델 기반 연구들은 소수의 참조 뷰에만 의존하거나, 3D 기하학적 정보를 명시적으로 통합하지 못해 복잡한 장면에서 일관성을 유지하는 데 한계가 있습니다.

#Review #3D Reconstruction #Video Diffusion Model #Sparse-view #Geometry-Aware #Global Scene Memory

2026년 4월 21일

[논문리뷰] UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

본 논문은 sparse-view 3D 모델링에서 나타나는 기하학적 정확도와 생성적 품질 사이의 근본적인 트레이드오프(trade-off) 문제를 해결하기 위해 UniRecGen 을 제안합니다.

#Review #3D Reconstruction #3D Generation #Multi-View Consistency #Diffusion Models #Canonical Space

2026년 4월 2일

[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

본 논문은 Vision-Language Model (VLM) 의 공간 지능을 스포츠 시나리오에서 벤치마킹하고 발전시키는 것을 목표로 합니다.

#Review #Spatial Intelligence #Vision-Language Models #Sports Analytics #3D Reconstruction #Dataset #Benchmark #Racket Sports #Human-Centric AI

2026년 3월 10일

[논문리뷰] LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

본 논문은 기존 feedforward 기하학적 재구성 모델 이 겪는 quadratic attention 복잡성 및 제한된 유효 메모리 로 인한 스케일링 문제를 해결하고, 분 단위의 매우 긴 비디오 시퀀스 에 대해 사후 최적화 없이 조밀한 3D 재구성을 수행하는 것을 목표로 합니다.

#Review #3D Reconstruction #Long-Context #Hybrid Memory #Sliding Window Attention (SWA)#Test-Time Training (TTT)#Transformer #Visual SLAM #Sequence Modeling

2026년 3월 9일

[논문리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

본 논문은 카메라 안내 비디오 생성 모델(VDMs)이 일관된 3D 장면을 재구성하는 데 겪는 한계, 특히 제한적인 카메라 제어 및 여러 시점에서의 내용 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #3D Reconstruction #Camera Control #Diffusion Models #Geometric Memory #Multi-View Consistency #World Model

2026년 3월 2일

[논문리뷰] tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction

본 논문은 기존 3D 재구성 모델들이 가지는 느린 최적화 , 제한적인 입력 뷰 확장성 , 그리고 긴 시퀀스 컨텍스트 처리 능력 의 한계를 극복하는 것을 목표로 합니다.

#Review #3D Reconstruction #Test-Time Training (TTT)#Autoregressive Modeling #Long-Context #Gaussian Splatting #Neural Radiance Fields #Large Reconstruction Models

2026년 2월 23일

[논문리뷰] Think3D: Thinking with Space for Spatial Reasoning

기존 Vision-Language Models (VLMs) 이 2D 인식을 넘어선 진정한 3D 공간 추론 능력 과 일관된 공간 표현을 구축하는 데 한계가 있음을 해결하고자 합니다.

#Review #Spatial Reasoning #3D Reconstruction #VLM Agents #Tool Calling #Reinforcement Learning #Novel View Synthesis #Iterative Exploration

2026년 1월 20일

[논문리뷰] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

본 논문은 확산 모델 기반 비디오 생성의 높은 계산 비효율성 문제를 해결하고, 정적 장면에 대한 카메라 제어 비디오 생성 을 위한 효율적인 프레임워크를 제안하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #3D Reconstruction #3D Gaussian Splatting #Camera-Controlled #Sparse Keyframes #Real-time #Computational Efficiency

2026년 1월 14일

[논문리뷰] InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

본 논문은 실시간 스트리밍 환경에서 3D 시각 기하학 이해 가 확장성과 장기적 안정성이라는 상충되는 요구사항으로 인해 제한되는 문제를 해결하고자 합니다.

#Review #3D Reconstruction #Transformer #Streaming Perception #Memory Management #KV Cache Pruning #Visual Geometry #Temporal Consistency #Continuous Learning

2026년 1월 5일

[논문리뷰] GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction

본 논문은 제한된 입력 뷰(sparse-view) 환경에서 발생하는 3D 재구성의 고질적인 문제(구멍, 고스팅, 기하학적 불일치)를 해결하고자 합니다.

#Review #3D Reconstruction #Sparse-View #Diffusion Models #Outpainting #Gaussian Splatting #Geometry-aware #Novel View Synthesis

2025년 12월 31일

[논문리뷰] How Much 3D Do Video Foundation Models Encode?

본 논문은 대규모 비디오 데이터로 사전 훈련된 Video Foundation Models (VidFMs) 내에 글로벌 3D 이해도가 자연스럽게 내재되어 있는지를 정량적으로 탐구하는 것을 목표로 합니다.

#Review #Video Foundation Models #3D Understanding #3D Reconstruction #Model Agnostic #Feature Probing #Diffusion Models #Temporal Reasoning

2025년 12월 25일

[논문리뷰] MatSpray: Fusing 2D Material World Knowledge on 3D Geometry

본 논문은 2D 이미지 기반의 물질 예측 모델을 활용하여 3D 형상에 물리 기반 렌더링(PBR) 속성을 부여하고, 여러 시점(multi-view)에서 일관성을 유지하며 다시 조명 가능한(relightable) 3D 객체 를 재구성하는 것을 목표로 합니다.

#Review #3D Reconstruction #Material Estimation #Diffusion Models #Gaussian Splatting #Inverse Rendering #PBR #Relighting #Neural Merger

2025년 12월 22일

[논문리뷰] 3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework

본 논문은 단일 2D 이미지로부터 시각 효과(VFX) 및 게임 개발에 즉시 활용 가능한, 수정 가능한 생산 준비 완료(production-ready) 3D 텍스처 메시 장면 을 재구성하는 것을 목표로 합니다.

#Review #3D Reconstruction #Generative AI #Indoor Scenes #Compositional Framework #Differentiable Rendering #Image-to-3D #VFX #Game Development

2025년 12월 21일

[논문리뷰] Multi-view Pyramid Transformer: Look Coarser to See Broader

본 논문은 대규모 3D 장면을 수십에서 수백 개의 이미지로부터 단일 순방향 패스로 재구성하는 트랜스포머 아키텍처의 확장성 문제 를 해결하는 것을 목표로 합니다.

#Review #Multi-view Transformer #3D Reconstruction #Hierarchical Attention #Computational Efficiency #3D Gaussian Splatting #Novel View Synthesis #Scalability

2025년 12월 8일

[논문리뷰] Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

논문은 단일 정적 이미지로부터 물리적으로 그럴듯하고 시간적으로 일관된 동적인 4D 장면(3D 기하학과 시간적 역학) 을 생성하는 핵심적인 문제를 해결하는 것을 목표로 합니다. 기존의 기하학-모션 분리 패러다임에서 발생하는 시공간적 불일치와 일반화 부족 문제를 극복하고자 합니다.

#Review #4D Synthesis #3D Reconstruction #Motion Generation #Single Image #Diffusion Model #Point Cloud #Dataset Curation #View Synthesis

2025년 12월 7일

[논문리뷰] SAM 3D: 3Dfy Anything in Images

본 논문은 단일 이미지로부터 시각적으로 기반한 3D 객체 재구성을 위한 SAM 3D 라는 생성 모델을 제시합니다. 가려짐 과 장면 복잡성 이 흔한 자연 이미지에서 객체의 기하학적 형태, 텍스처, 레이아웃 을 예측하여 완전한 장면 재구성을 가능하게 하는 것을 목표로 합니다.

#Review #3D Reconstruction #Generative Models #Single Image 3D #Object Reconstruction #Scene Understanding #Data Engine #Model-in-the-Loop #Human Preference

2025년 11월 20일

[논문리뷰] Depth Anything 3: Recovering the Visual Space from Any Views

논문은 단일 이미지, 다중 뷰 또는 비디오 스트림과 같은 임의의 시각 입력 으로부터 공간적으로 일관된 3D 기하 정보를 복구 하는 것을 목표로 합니다.

#Review #Depth Estimation #Multi-view Geometry #Transformer Architecture #Teacher-Student Learning #Pose Estimation #3D Reconstruction #Novel View Synthesis #Visual Space Recovery

2025년 11월 13일

[논문리뷰] Quantized Visual Geometry Grounded Transformer

대규모 Visual Geometry Grounded Transformers (VGGTs) 모델의 과도한 연산 및 메모리 비용 문제를 해결하고, 실세계 배포를 위한 효율적인 저비트 양자화 프레임워크를 개발하는 것이 목표입니다.

#Review #Quantization #Post-Training Quantization #3D Reconstruction #Visual Transformer #Model Compression #Efficient Inference #Hadamard Rotation #Calibration Sampling

2025년 9월 26일

[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

본 논문은 3D 포인트 클라우드로부터 편집 가능한 Blender Python 스크립트 형태의 구조화된 메시 코드를 생성하는 새로운 프레임워크인 MeshCoder 를 제안합니다.

#Review #LLM #Point Clouds #3D Reconstruction #Structured Mesh #Blender Python #Shape Editing #Part-based Representation #Large Language Model

2025년 8월 21일

[논문리뷰] G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

본 논문은 기존의 피드포워드(feed-forward) 3D 재구성 모델들이 RGB 이미지에만 의존하여 보조 데이터(깊이 맵, 카메라 내/외부 파라미터)를 활용하지 못하는 한계를 해결하고자 합니다.

#Review #3D Reconstruction #Deep Learning #Multi-Modal Fusion #Camera Pose Estimation #Depth Estimation #Transformer Networks #Prior Information

2025년 8월 19일

[논문리뷰] STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

논문은 기존 다중 뷰 3D 재구성 방법론들이 높은 연산 비용을 요구하거나 시퀀스 길이에 따라 확장성이 떨어지는 문제를 해결하고자 합니다.

#Review #3D Reconstruction #Causal Transformer #Sequential Modeling #Streaming Data #Pointmap Prediction #Online Perception #KVCache

2025년 8월 15일

[논문리뷰] Matrix-3D: Omnidirectional Explorable 3D World Generation

본 논문은 단일 이미지 또는 텍스트 프롬프트로부터 전방위 탐색 가능한 3D 세계 를 생성하는 것을 목표로 합니다. 기존 방식의 좁은 시야각, 불일치성 및 제한적인 데이터셋 문제를 해결하여, 고품질의 기하학적으로 일관된 3D 환경을 넓은 범위로 생성하고자 합니다.

#Review #3D World Generation #Panoramic Video Generation #3D Reconstruction #Diffusion Models #Gaussian Splatting #Dataset #Camera Control

2025년 8월 13일

[논문리뷰] iLRM: An Iterative Large 3D Reconstruction Model

본 논문은 일반화 가능한 Feed-forward 3D 재구성 모델, 특히 Transformer 아키텍처 를 기반으로 하는 최신 방법론들이 다수의 뷰 또는 고해상도 이미지 처리 시 겪는 확장성 및 높은 연산 비용 문제 를 해결하고자 합니다.

#Review #3D Reconstruction #Gaussian Splatting #Iterative Refinement #Transformer Architecture #Multi-view Learning #Scalability #Feed-forward Models

2025년 8월 2일

[논문리뷰] ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation

본 논문은 단안 이미지 시퀀스에서 고효율 및 고품질의 실시간 3D 재구성 을 달성하는 것을 목표로 합니다. 기존 per-scene 최적화 방식의 높은 계산 비용과 feed-forward 모델 의 정확도 및 견고성 부족이라는 주요 트레이드오프를 해결하고자 합니다.

#Review #3D Reconstruction #Monocular SLAM #Gaussian Splatting #Level of Detail (LoD)#Feed-Forward Models #Structured Scene Representation #Real-time #High-Fidelity

2025년 10월 10일

[논문리뷰] HoloScene: Simulation-Ready Interactive 3D Worlds from a Single Video

기존 3D 재구성 방법론의 한계(불완전한 기하학, 낮은 상호작용성, 물리적 비현실성 등)를 극복하고, 단일 비디오 입력 으로부터 시뮬레이션 준비가 완료된(simulation-ready) , 물리적으로 정확하며 상호작용 가능한 3D 디지털 트윈을 생성하는 것을 목표로 합니다.

#Review #3D Reconstruction #Digital Twin #Scene Graph #Physical Simulation #Interactive Environments #Single Video Reconstruction #Neural Rendering

2025년 10월 8일

[논문리뷰] Triangle Splatting+: Differentiable Rendering with Opaque Triangles

기존 Neural Radiance Fields (NeRF) 나 3D Gaussian Splatting (3DGS) 과 같은 연속적 볼륨 또는 가우시안 프리미티브 기반의 3D 재구성 방법들이 메시 기반 그래픽스 파이프라인(예: 게임 엔진, VR 헤드셋)과 비호환적인 문제를 해결하는 것을 목표로 합니다.

#Review #Differentiable Rendering #3D Reconstruction #Novel View Synthesis #Triangles #Opaque Primitives #Game Engines #Gaussian Splatting #Mesh-based Rendering

2025년 10월 6일

[논문리뷰] DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion

본 논문은 기존 방법론의 한계인 긴 시간 동안의 비디오 생성에 대한 과도한 계산 요구, 3D 표현 없는 장기 비디오 합성 집중, 또는 정적 단일 장면 재구성에 대한 제약을 해결합니다.

#Review #Driving Scene Generation #Video Diffusion #3D Reconstruction #Gaussian Splatting #Feed-Forward Models #Temporal Coherence #Multimodal Control

2025년 10월 20일

[논문리뷰] TTT3R: 3D Reconstruction as Test-Time Training

본 논문은 최신 RNN 기반 3D 재구성 모델 이 긴 시퀀스에 적용될 때 발생하는 길이 일반화(length generalization) 부족 과 재앙적 망각(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #3D Reconstruction #Test-Time Training (TTT)#Recurrent Neural Networks (RNN)#Online Learning #Length Generalization #Associative Memory #State Update Rule

2025년 10월 1일