[논문리뷰] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

2026년 3월 4일수정: 2026년 3월 4일

링크: 논문 PDF로 바로 열기

저자: Seungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee

핵심 연구 목표

본 논문은 embodied task를 위해 탐색 과정과 동시에 3D 장면을 실시간으로 이해하는 문제를 해결하는 것을 목표로 합니다. 특히, 스트리밍 이미지로부터 온라인 , 실시간 , 높은 일반화 능력 을 가지며 전체 장면 에 대한 open-vocabulary 3D semantic understanding 을 동시에 수행하는 프레임워크를 개발하고자 합니다.

핵심 방법론

저자들은 3D Gaussian Splatting (3DGS) 기반의 EmbodiedSplat 을 제안하며, 2D CLIP features 와 3D geometric-aware CLIP features 를 결합하여 semantic 이해를 강화합니다. 메모리 효율성을 위해 Online Sparse Coefficient Field with CLIP Global Codebook 을 사용하여 Gaussian당 semantic을 압축하고, 3D 기하학적 정보를 통합하기 위해 3D U-Net 을 활용합니다. 또한, 거의 실시간 처리를 위해 경량화된 EmbodiedSplat-fast 버전을 개발하여 2D foundation 모델을 실시간 모델로 대체하고 효율적인 3D 검색 전략을 도입했습니다.

주요 결과

EmbodiedSplat 은 ScanNet [12] 10개 클래스에서 49.81 mIoU 및 76.13 mACC 를 달성하며 기존 3D semantic segmentation 방법론들을 능가했습니다. EmbodiedSplat-fast 는 5-6 FPS 의 프레임 처리 속도를 기록하여 Online-LangSplat [31]의 1.12 FPS 대비 대폭 향상된 실시간 성능을 보여줍니다. 또한, Sparse Coefficient Field 는 일반적인 CLIP feature 저장 방식보다 평균 67배 의 메모리 효율성을 달성했습니다.

AI 실무자를 위한 시사점

EmbodiedSplat 은 로봇 공학 및 자율 탐색과 같은 embodied AI 시나리오에서 실시간 3D 장면 이해의 가능성을 크게 확장합니다. 특히, 온라인 및 feed-forward 방식 으로 대규모 3D 장면을 재구성하고 open-vocabulary semantic 정보를 제공하는 능력은 실제 환경에서의 즉각적인 상호작용 및 의사결정에 필수적입니다. 이 모델은 메모리 효율적인 semantic 표현 과 높은 처리 속도 를 제공하여 엣지 디바이스 및 제한된 자원 환경에서의 배포에 적합합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
현재글 : [논문리뷰] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
다음글 [논문리뷰] GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection