[논문리뷰] AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

2026년 4월 21일수정: 2026년 4월 21일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Tianshuo Yang, Renbiao Jin, Shi Guo, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

3D Geometry Memory: 생성된 이미지와 원본 캡처 데이터를 결합하여 증분적으로(incrementally) 업데이트되는 명시적 3D 포인트 클라우드 구조입니다.
Unordered Contextual Video Diffusion: 고정된 시퀀스 순서에 구애받지 않고, 임의의 수와 순서의 입력 뷰를 조건으로 생성하는 비디오 확산 모델 프레임워크입니다.
Geometry-Driven View Selection: 영상의 외형 유사성이 아닌, 현재 3D 구조 정보와 대상 뷰 간의 가시성(visibility)을 기반으로 최적의 참조 뷰를 선택하는 전략입니다.
Context-Window Sparse Attention: 전체 시퀀스에 대한 연산을 수행하는 대신, 현재 타겟 뷰와 공간적으로 밀접한 참조 뷰 및 이웃 프레임에만 주의를 집중하여 연산 효율을 높이는 기법입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 논문은 임의의 불규칙한 Sparse-view로부터 고품질의 대규모 3D 장면을 복원하는 문제를 해결하고자 합니다. 기존의 확산 모델 기반 연구들은 소수의 참조 뷰에만 의존하거나, 3D 기하학적 정보를 명시적으로 통합하지 못해 복잡한 장면에서 일관성을 유지하는 데 한계가 있습니다. 또한, 기존 프레임워크들은 고정된 시퀀스 입력에 최적화되어 있어 다양한 뷰포인트 변화를 수용하지 못하며 연산 비용이 높다는 문제가 있습니다. 이를 해결하기 위해 저자들은 3D 기하학적 제어와 결합된 확장 가능한 재구성 프레임워크인 AnyRecon을 제안합니다 [Figure 1].

Figure 1: AnyRecon 성능 개요

Figure 1 — AnyRecon 성능 개요

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 논문은 생성과 재구성 과정을 명시적 3D 메모리를 통해 결합하는 AnyRecon 프레임워크를 제안합니다. 제안된 방법론은 Global Scene Memory를 사용하여 임의의 수의 캡처 뷰를 조건으로 주입하고, Non-Compressive Latent Encoding을 통해 특징 간의 얽힘을 방지하며, 4-step diffusion distillation과 Sparse Attention을 통해 실시간에 가까운 효율성을 확보합니다 [Figure 2]. 또한, 생성된 출력을 3D 기하학적 메모리에 피드백하여 기하학적 일관성을 유지하는 닫힌 루프(closed loop) 구조를 형성합니다 [Figure 4]. 실험 결과, AnyRecon은 DL3DV 및 Tanks and Temples 데이터셋에서 기존 SOTA 대비 높은 PSNR과 SSIM 수치를 달성하며 우수한 재구성 품질을 입증하였습니다 [Table 1]. 특히, 40프레임 기준 105초의 추론 시간으로 기존 방법론 대비 최대 20배 이상의 연산 효율 개선을 보여주었습니다.

Figure 2: AnyRecon 전체 아키텍처

Figure 2 — AnyRecon 전체 아키텍처

Figure 4: 3D 기하학적 메모리 업데이트

Figure 4 — 3D 기하학적 메모리 업데이트

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 Sparse-view 입력을 고품질의 3D 자산으로 변환하기 위한 확장 가능한 비디오 확산 기반 재구성 프레임워크인 AnyRecon을 성공적으로 제시하였습니다. 이 연구는 기하학적 제약과 생성 모델의 창의성을 명시적인 3D 메모리 업데이트를 통해 효과적으로 통합함으로써, 기존의 파편화된 복원 문제를 해결했다는 점에 큰 의의가 있습니다. 본 연구의 결과물은 가상 환경 구축, 증강 현실(AR), 그리고 다양한 시각적 효과 생성 분야에서 일상적인 비디오 캡처 데이터를 활용한 3D 복원의 실용성을 크게 향상시킬 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems
현재글 : [논문리뷰] AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model
다음글 [논문리뷰] Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

[논문리뷰] AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

메타데이터

댓글

관련 포스트

Review 의 다른글