[논문리뷰] WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes

2026년 5월 17일수정: 2026년 5월 17일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Jichen Hu, Jiawei Guo, Jiazhong Cen, Chen Yang, Sikuang Li, Wei Shen, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

3D Gaussian Splatting (3DGS): 3D 장면을 비정형 Gaussian primitives의 집합으로 표현하여 실시간 렌더링을 가능하게 하는 기술입니다.
Monolithic 3D Worlds: 기존 generative model들이 생성하는 장면으로, 객체와 배경이 하나의 구조물로 결합되어 개별적인 편집이나 조작이 불가능한 상태를 지칭합니다.
Agent-Driven Decomposition: 비전-언어 모델(VLM) 기반 에이전트를 활용하여 장면 내 조작 가능한 객체를 자동으로 탐색하고 이를 배경으로부터 분리하는 프레임워크의 핵심 공정입니다.
Interaction-Ready Scene: 객체 수준의 분해와 배경 보완, 그리고 물리적 충돌 정보(collision proxy)가 포함된 상태로, 로봇 조작이나 객체 재배치와 같은 하위 시뮬레이션 태스크가 가능한 환경입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 최신 3D generative world model들이 생성한 장면의 정적인 특성과 낮은 편집 가능성 문제를 해결하기 위해 WorldAct를 제안합니다. 최근의 generative scene synthesis 시스템들은 시각적으로 우수한 3D 환경을 생성하지만, 출력물이 단일 구조(monolithic)인 탓에 개별 객체의 선택, 이동, 대체가 불가능하다는 한계가 있습니다. 이러한 파편화되지 않은 표현은 창의적인 디자인 워크플로우나 에이전트 기반의 embodied AI 시뮬레이션 활용에 제약이 됩니다. 따라서 저자들은 기존의 시각적으로 완결된 장면을 활용하면서도, 이를 객체 수준에서 분해하여 상호작용 가능한 상태로 변환하는 자동화된 파이프라인의 필요성을 강조합니다 [Figure 1].

Figure 1: WorldAct 전체 개념

Figure 1 — WorldAct 전체 개념

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 3DGS 기반 장면을 객체 수준으로 분해하고 상호작용 가능하게 만드는 WorldAct 프레임워크를 제안합니다 [Figure 2]. 제안하는 방식은 우선 VLM 에이전트를 사용하여 장면 내 조작 가능한 객체를 탐색하고, SAM3를 통해 다중 시점 마스크를 추출한 뒤 3D 공간으로 분리합니다. 분리된 후의 배경 빈 공간은 DiffuEraser와 3D inpainting을 통해 복원하며, 개별 객체는 더 깨끗한 고품질 asset으로 재구성됩니다 [Figure 3]. 최종적으로 생성된 객체 asset과 완성된 배경을 충돌 기하 정보(collision geometry)와 함께 결합하여, 수정이 가능하고 물리적 조작을 지원하는 시뮬레이션 환경을 구축합니다 [Figure 4]. 정량적 결과로서, 제안 방법론은 MWM-easy 데이터셋 기준 Interactable Object Recall Rate를 기존 대비 3배 이상 향상(25.40% → 83.98%)시켰으며, 시각적 품질 측면에서도 MANIQA와 ReMOVE 지표에서 기존 baseline을 능가하는 성능을 확인하였습니다 [Table 1, Table 2].

Figure 2: WorldAct 파이프라인

Figure 2 — WorldAct 파이프라인

Figure 3: 에이전트 기반 탐색

Figure 3 — 에이전트 기반 탐색

4. Conclusion & Impact (결론 및 시사점)

본 연구는 고정된 모놀리식 3D 장면을 사용자 조작이 가능한 객체 중심의 상호작용 환경으로 전환하는 실용적인 파이프라인을 구축했습니다. WorldAct는 객체 분해, 배경 복원, asset 재구성이라는 일련의 과정을 에이전트 주도로 자동화함으로써, 콘텐츠 제작 및 embodied AI 연구에서 3D 생성 모델의 활용성을 획기적으로 확장합니다. 향후 동적 장면이나 물리 속성(마찰, 질량 등) 반영 연구가 수반된다면, 가상 시뮬레이션 생태계의 능동적 상호작용 기술 발전에 크게 기여할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Unlocking Dense Metric Depth Estimation in VLMs
현재글 : [논문리뷰] WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes
다음글 [논문리뷰] A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation