본문으로 건너뛰기

[논문리뷰] SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

링크: 논문 PDF로 바로 열기

저자: Haosong Peng, Hao Li, Jiaqi Chen, Yuhao Pan, Runmao Yao, Yalun Dai, Fushuo Huo, Fangzhou Hong, Zhaoxi Chen, Haozhao Wang, Dingwen Zhang, Ziwei Liu, Wenchao Xu

1. Key Terms & Definitions

  • SpatialBench: 공간 Foundation Model (SFM)all-round player 역량을 포괄적으로 평가하기 위해 제안된 cross-paradigm, domain-diverse 벤치마크로, deterministic sampling 방식을 채택합니다.
  • Multi-Density Evaluation Protocol: SpatialBench 내에서 모델의 robustnessSingle-frame, Sparse, Medium, Dense의 4가지 input density regime에 걸쳐 체계적으로 평가하는 프로토콜입니다.
  • DA-Next-5M: egocentricwrist-view domain의 데이터 격차를 해소하기 위해 5.5M 프레임22K 장면으로 구성된 대규모 3D dataset입니다.
  • DA-Next: DA-Next-5M으로 훈련된 강력한 domain-specific baseline model로, Depth-Anything-3 (DA3) 아키텍처를 기반으로 absolute scale 예측 기능을 확장했습니다.
  • Full-Context Attention Models: 전체 입력 시퀀스에 걸쳐 globally coupled attention을 사용하여 geometric reasoning을 수행하는 모델로, 일반적으로 높은 정확도를 보이지만 GPU memory consumption이 큽니다.
  • Bounded-Memory Models: Streaming, Chunk-wise, Test-Time Training (TTT)과 같은 접근 방식을 통해 active context를 제한하여 긴 시퀀스를 처리하고 long-horizon scalability를 제공하는 모델입니다.

2. Motivation & Problem Statement

본 논문은 현재 Spatial Foundation Models (SFMs)standard dataset에서 인상적인 성능을 보여주지만, 다양한 downstream task, 임의의 viewpoint, 변화하는 scene domain, 다양한 input density, 그리고 특정 hardware constraint에 걸쳐 robust하게 generalizing할 수 있는 all-round player인지에 대한 근본적인 질문에 답하고자 합니다. 기존 평가 방식은 narrow paradigm coverage, limited scene domain, arbitrary frame sampling이라는 내재적 한계가 있어 모델의 진정한 generalization capability를 평가하기 어렵습니다. 예를 들어, 현재 benchmarkfeed-forward, optimization-based, streaming, SLAM-based, chunk-based, test-time training (TTT) 등 다양한 model paradigm 중 극히 일부만을 평가하며, input density 변화에 따른 모델의 scaling behavior를 제대로 반영하지 못합니다 [Figure 1]. 또한, standard indoor 또는 object-centric reconstruction dataset으로는 robotics, autonomous driving, egocentric perception, wrist-mounted manipulation과 같은 실제 응용 분야의 다양성을 포착할 수 없어 real-world spatial intelligence에 대한 포괄적인 평가가 불가능합니다.

Figure 1: 전체 벤치마크 디자인, 포함된 데이터셋, 모델, 패러다임, 주요 발견 사항을 요약하는 핵심 다이어그램

Figure 1 — 전체 벤치마크 디자인, 포함된 데이터셋, 모델, 패러다임, 주요 발견 사항을 요약하는 핵심 다이어그램

3. Method & Key Results

본 연구는 이러한 격차를 해소하기 위해 cross-paradigm, domain-diverse SpatialBench를 제안합니다. SpatialBench19개 dataset546개 장면을 포함하며, 5개 spatial domain (Room/Object, Roaming, Driving, Ego-View, Wrist-View)에 걸쳐 41개 모델6개 paradigm으로 분류하고 4개 input density setting (Single-frame, Sparse, Medium, Dense)에서 5개 task suite로 평가합니다 [Figure 1, Figure 2]. 특히, DA-Next-5M이라는 대규모 3D dataset (5.5M photorealistic, 고품질 프레임)을 egocentricwrist-view 관점에서 큐레이션하여 기존 benchmark의 가장 큰 데이터 격차를 해소합니다 [Figure 4]. 이 dataset으로 훈련된 DA-Next modelDA3 아키텍처를 기반으로 absolute scale 예측을 위해 확장되었습니다 [Figure 5].

Figure 5: 제안된 baseline model인 DA-Next의 아키텍처를 설명하는 다이어그램

Figure 5 — 제안된 baseline model인 DA-Next의 아키텍처를 설명하는 다이어그램

SpatialBench의 광범위한 평가 결과, 몇 가지 핵심 통찰력을 발견했습니다. 첫째, Full-context attention modelsDA3-Giantπ³bounded-memory 접근 방식보다 낮은 depth error를 달성하며, high-memory GPU에서 정확도 상한선을 정의합니다 [Table 1, Figure 6]. 이는 globally coupled representationhigh-fidelity 3D geometry estimation에 필수적임을 시사합니다. 둘째, Bounded-memory modelsGPU memory consumption을 제한하면서 long-sequence reconstruction을 가능하게 하지만, pairwise geometric precision을 일부 희생합니다 [Figure 7, Table 1]. 셋째, data qualitydata volume보다 중요하며, DA3처럼 신중하게 큐레이션된 pseudo-GT supervision이 더 크지만 노이즈가 많은 학습 데이터보다 일관되게 우수한 성능을 보입니다 [Figure 8]. 마지막으로, egocentricwrist-view domaincross-method average에서 성능이 급격히 저하되는 dominant Out-of-Distribution (OOD) failure mode로 나타났습니다 [Figure 9]. DA-NextDA3-Giant 대비 depth AbsRel에서 sparse input에 대해 47%, medium input에 대해 59% 개선을 보였고, pose AUC@30에서 각각 3.1%5.5% 향상되어 targeted in-domain data curationembodied domain gap을 효과적으로 줄임을 입증했습니다 [Table 1].

Table 1: 모든 모델과 설정에 대한 핵심 정량적 성능 비교를 담은 주요 결과 테이블

Table 1 — 모든 모델과 설정에 대한 핵심 정량적 성능 비교를 담은 주요 결과 테이블

4. Conclusion & Impact

결론적으로, 현재 Spatial Foundation Models은 아직 진정한 all-round player가 아니며, domain generalizationinput-density robustness에서 중요한 격차를 보입니다. SpatialBench3D spatial foundation models의 성능을 cross-paradigm, domain-diverse, input-density 관점에서 종합적이고 reproducible하게 평가하는 최초의 표준화된 benchmark입니다. 특히, egocentricwrist-view domain에서 가장 심각한 data gap을 식별하고, 이를 해결하기 위해 대규모 DA-Next-5M dataset과 강력한 DA-Next baseline model을 도입했습니다. 이 연구는 full-context attention 모델이 정확도 상한선을 제공하고, bounded-memory 모델이 long-horizon scalability를 가능하게 하며, data qualitydata volume보다 중요하다는 중요한 통찰력을 제공합니다. SpatialBench는 미래 연구를 위한 견고한 기반을 제공하며, 더욱 generalizable하고 robust3D foundation models 개발 방향을 제시함으로써 학계와 산업계 모두에 큰 시사점을 줍니다.


⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글