[논문리뷰] ZipSplat: Fewer Gaussians, Better Splats

2026년 6월 3일수정: 2026년 6월 3일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Alexander Veicht, Sunghwan Hong, Dániel Baráth, Marc Pollefeys

1. Key Terms & Definitions (핵심 용어 및 정의)

3D Gaussian Splatting (3DGS): 3D 장면을 이방성(anisotropic) 3D Gaussian 집합으로 표현하고 차분 가능한 래스터라이제이션(differentiable rasterization)을 통해 렌더링하는 기술입니다.
Scene Tokens: 기존의 픽셀 기반 3DGS와 달리, 장면의 시각적 정보를 압축한 토큰으로, 이를 통해 Gaussian 배치를 2D 픽셀 그리드로부터 독립(decoupling)시킵니다.
Feed-forward Model: 별도의 장면별 최적화(per-scene optimization) 과정 없이, 단일 네트워크 전달(forward pass)만으로 입력 이미지로부터 3D 표현을 즉시 예측하는 방식입니다.
Compression Ratio (r): 추론 단계에서 Gaussian 예산(budget)을 조절하기 위해 사용되는 파라미터로, 장면 토큰의 수를 클러스터링을 통해 동적으로 변경합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 Feed-forward 3DGS 방식이 3D Gaussian 배치를 입력 이미지의 픽셀 그리드에 고정시킴으로써 발생하는 구조적 비효율성을 해결하고자 합니다. 기존 방법론들은 픽셀 기반으로 Gaussian을 생성하기 때문에, 단순한 평면과 복잡한 텍스처를 가진 객체에 동일한 연산 자원을 낭비하며, 뷰 간 중복되는 영역에서 불필요한 Gaussian이 생성되는 문제가 있습니다. 이러한 pixel-Gaussian 결합은 장면의 복잡도가 아닌 카메라 해상도에 의해 연산 비용이 결정되게 만듭니다 [Figure 1]. 저자들은 이러한 2D 그리드 의존성을 제거하여 효율적이고 적응적인 3D 표현이 가능한 모델을 제안합니다.

Figure 1: 품질-효율성 곡선 및 성능 비교

Figure 1 — 품질-효율성 곡선 및 성능 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 장면의 시각적 정보를 압축된 Scene Tokens로 변환하고, 이를 기반으로 3D Gaussian을 배치하는 ZipSplat 아키텍처를 제안합니다. 먼저, 멀티뷰 백본에서 추출된 고밀도 토큰을 k-means clustering을 통해 장면의 복잡도에 최적화된 소수의 토큰으로 압축합니다 [Figure 2]. 이후, 각 토큰은 경량 MLP를 통해 3D 공간상에 구속 없는(unconstrained) 위치를 가진 Gaussian 그룹으로 디코딩됩니다 [Figure 3]. 이 방식은 픽셀 기반 방식 대비 6× 적은 수의 Gaussian으로도 더 높은 품질의 렌더링을 가능하게 합니다. 정량적 평가 결과, DL3DV 및 RealEstate10K 벤치마크에서 기존 최고 수준의 pose-free 모델(예: YoNoSplat)을 PSNR 기준으로 2.1 dB 및 1.2 dB 상회하는 성능을 달성하였습니다 [Table 1, Table 2]. 특히 추론 시점의 압축 비율 조절을 통해 재학습 없이 단일 모델로 품질-효율성 곡선(quality-efficiency curve) 전체를 포괄할 수 있는 범용성을 보여줍니다 [Figure 8].

Figure 2: ZipSplat 전체 아키텍처

Figure 2 — ZipSplat 전체 아키텍처

Figure 3: 픽셀 정렬 vs 토큰 기반 배치

Figure 3 — 픽셀 정렬 vs 토큰 기반 배치

4. Conclusion & Impact (결론 및 시사점)

본 연구는 3D 표현의 핵심적인 설계 선택인 '픽셀 기반 Gaussian 배치'를 혁신적으로 탈피하여, 장면 토큰 기반의 적응적 재구성을 가능하게 했습니다. ZipSplat은 더 적은 수의 Gaussian으로 향상된 시각적 충실도를 제공하며, 입력 뷰 증가에 따른 모델의 안정적인 확장성을 증명했습니다. 본 연구는 실시간 3D 재구성이 필요한 자율주행, 가상현실 및 증강현실 분야에서 컴퓨팅 자원 효율성을 획기적으로 높일 수 있는 기술적 토대를 마련한 것으로 평가됩니다.

Part 2: 중요 Figure 정보