[논문리뷰] Extend3D: Town-Scale 3D Generation

2026년 3월 31일수정: 2026년 3월 31일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Seungwoo Yoon, Jinmo Kim, Jaesik Park

1. Key Terms & Definitions (핵심 용어 및 정의)

Latent Flow Model : 고품질 3D 객체 생성의 근간이 되는 모델로, 본 논문에서는 Trellis와 같은 모델을 확장하여 대규모 3D 장면 생성에 활용함.
Overlapping Patch-wise Flow : 확장된 3D Latent 공간을 겹치는 패치들로 나누어 병렬적으로 생성하고, 각 패치의 denoising 경로를 결합하여 전체 장면의 일관성을 유지하는 기법.
Under-noising : 가이드 구조(point cloud prior)에 노이즈를 추가할 때, 원래의 가이드 정보보다 더 많은 노이즈를 주입하고 denoising을 수행하여 occluded 영역을 모델이 효과적으로 채우도록 유도하는 기법.
3D-aware Optimization : Denoising 과정에서 3D 장면의 구조적 일관성과 텍스트 충실도를 보장하기 위해 Point cloud 기반의 손실 함수 등을 사용하여 Latent 표현을 최적화하는 과정.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

최근 3D generative model은 고품질의 3D 객체를 생성하는 데 성공했으나, 여전히 복잡한 구성의 대규모 3D 장면(Town-Scale) 생성에는 어려움을 겪고 있습니다. 기존의 객체 중심(object-centric) 데이터셋은 3D 장면의 복잡한 배치를 표현하기 부족하며, 대부분의 3D 모델은 고정된 크기의 Latent 공간을 사용하여 큰 장면을 생성할 경우 해상도 저하 및 Blurring 현상이 발생합니다. 기존의 outpainting 기반 연구들은 블록 간의 일관성이 떨어지고 이음새(seam)가 발생하는 한계가 있습니다. 따라서 본 논문에서는 훈련 없이(training-free) 단일 이미지로부터 상세하고 확장 가능한 3D 장면을 생성할 수 있는 파이프라인을 제안합니다 [Figure 2].

Figure 2: Extend3D 전체 파이프라인

Figure 2 — Extend3D 전체 파이프라인

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 사전 훈련된 객체 중심 3D 생성 모델의 Latent 공간을 xx 및 yy 방향으로 확장하고, 이를 겹치는 패치(overlapping patches)로 분할하여 동시 생성함으로써 대규모 장면의 디테일과 확장성을 확보하는 Extend3D 를 제안합니다 [Figure 3]. 2D-3D 공간 정렬 및 객체 중심 모델의 한계를 극복하기 위해, Monocular depth estimator로부터 추출된 Point cloud를 구조적 사전 정보로 활용합니다. 특히, occluded 영역을 효과적으로 채우기 위해 Under-noising 기법을 적용한 반복적 SDEdit 과정을 도입했습니다 [Figure 4]. 또한, Denoising 매 단계마다 3D 인식 최적화 목적 함수(3D-aware optimization objectives)를 사용하여 장면의 기하학적 구조와 텍스트 충실도를 개선했습니다 [Table 2]. 정량적 평가 결과, Extend3D 는 기존의 SOTA 모델들(Trellis, Hunyuan3D, EvoScene 등) 대비 4가지 평가지표(Geometry, Faithfulness, Appearance, Completeness)에서 압도적인 우위를 점했으며, 특히 SynCity 대비 CLIP Score와 HPSv3에서 우수한 성능을 보였습니다 [Table 1, 3].

Figure 3: Overlapping patch-wise flow

Figure 3 — Overlapping patch-wise flow

Figure 4: Under-noising 원리

Figure 4 — Under-noising 원리

4. Conclusion & Impact (결론 및 시사점)

본 연구는 객체 중심 3D 생성 모델의 Latent 공간을 확장하여 훈련 없이 대규모 3D 장면 생성을 가능하게 한 혁신적인 파이프라인 Extend3D 를 제안했습니다. Overlapping patch-wise flow, Under-noising, 3D-aware optimization이라는 핵심 전략을 통해 기존 모델의 고질적인 문제인 불일치와 구조적 파편화를 효과적으로 해결했습니다. 본 연구는 게임 개발, 영화, VR/AR 콘텐츠 제작 등 산업 전반에서 3D 장면 자산 제작 효율을 획기적으로 향상할 것으로 기대됩니다. 다만, Street-level 이미지의 변형 문제나 대규모 장면에서의 메모리 사용량 최적화는 향후 연구 과제로 남아 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models
현재글 : [논문리뷰] Extend3D: Town-Scale 3D Generation
다음글 [논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization