[논문리뷰] GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

2026년 4월 1일수정: 2026년 4월 1일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Nicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner

1. Key Terms & Definitions (핵심 용어 및 정의)

3D Gaussian Splatting : 장면을 수많은 3D Gaussian 프리미티브로 표현하여 고품질 렌더링을 가능하게 하는 기술.
Vector Quantization (VQ) : 연속적인 장면 표현을 이산적인 코드북 인덱스로 변환하여 GPT 모델이 학습 가능한 토큰 시퀀스로 만드는 압축 기법.
3D Rotary Positional Encoding (3D RoPE) : 직렬화된 토큰 시퀀스에 3D 공간적 위치 정보를 주입하여 모델이 공간적 인접성을 이해하게 하는 기술.
Causal Transformer : 이전 토큰들을 조건으로 다음 토큰을 순차적으로 예측하는 GPT 방식의 생성 모델.
Scene Completion : 부분적인 장면 정보를 입력받아 나머지 공간을 자율적으로 채워넣는 생성 모델의 기능.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 3D 생성 모델들이 주로 사용하는 전체적(holistic)인 Denoising이나 Diffusion 방식이 3D 환경의 점진적 구축과 편집에 부적합하다는 문제를 해결하고자 한다. 기존 방식은 고정된 장면을 한 번에 생성하는 경향이 있어, 실제 환경처럼 점진적으로 확장하거나 수정하는 유연성이 부족하다. 또한, 구조화되지 않은 3D 프리미티브를 직접 모델링하는 것은 복잡도가 높고 학습이 어렵다는 한계가 있다. 따라서 저자들은 3D 장면 생성을 순차적인 인과적 예측 과정으로 재정의하고, GaussianGPT 를 통해 이를 효율적으로 구현하고자 한다 [Figure 1].

Figure 1: GaussianGPT 전체 개념

Figure 1 — GaussianGPT 전체 개념

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 3D Gaussian 장면을 이산적인 토큰으로 압축한 뒤, 인과적 Transformer 를 통해 Next-token prediction을 수행하는 GaussianGPT 프레임워크를 제안한다. 먼저, 희소 3D CNN 기반의 오토인코더가 장면을 구조화된 잠재 그리드로 압축하며, LFQ(Lookup-free Quantization) 를 사용하여 이산화한다 [Figure 2]. 이후, 직렬화된 공간 토큰과 특징 토큰을 3D RoPE 가 적용된 Transformer 가 학습하여 공간적 구조와 외형을 순차적으로 생성한다. 실험 결과, GaussianGPT 는 무조건적(Unconditional) 형상 생성 태스크에서 FID 5.68 , KID 1.835 를 기록하며 기존 L3DG 및 DiffRF 대비 뛰어난 성능을 보였다 [Table 1]. 또한, 장면 완성(Scene Completion) 및 Outpainting 태스크에서도 매우 일관성 있고 다양한 결과를 생성함을 확인하였다 [Figure 4, Figure 6].

Figure 2: 모델 아키텍처

Figure 2 — 모델 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 논문은 3D 장면 생성을 언어 모델과 같은 순차적 생성 패러다임으로 성공적으로 전환함으로써 3D 생성 분야의 새로운 가능성을 제시한다. GaussianGPT 는 명시적인 3D 표현인 Gaussian Splatting을 활용하면서도 Transformer의 Compositional Inductive Bias를 결합하여 높은 제어 가능성을 제공한다. 이 연구는 복잡한 실내 환경의 확장형 합성 및 편집을 가능하게 하여, 몰입형 가상 환경 구축 및 Embodied AI 분야에 중요한 기여를 한다. 향후 연구는 실세계 데이터에서의 불확실성 모델링 및 생성 컨텍스트의 장기적 안정성 향상에 집중될 것이다.

Figure 4: 장면 생성 정성적 비교

Figure 4 — 장면 생성 정성적 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Embarrassingly Simple Self-Distillation Improves Code Generation
현재글 : [논문리뷰] GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation
다음글 [논문리뷰] HippoCamp: Benchmarking Contextual Agents on Personal Computers