[논문리뷰] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

2025년 12월 28일수정: 2025년 12월 28일

링크: 논문 PDF로 바로 열기

저자: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo

핵심 연구 목표

본 논문은 상업적 활용에 적합한 수준의 사실적인 비디오 객체 삽입(VOI) 을 달성하는 것을 목표로 합니다. 특히, 제한적인 4D 장면 이해 와 가려짐(occlusion) , 조명 효과 에 대한 부적절한 처리로 인해 발생하는 문제를 해결하여 기하학적으로 일관되고 외관상 충실한 비디오 합성을 구현하고자 합니다.

제안하는 프레임워크인 InsertAnywhere는 두 단계로 구성됩니다. 첫째, 4D-aware 마스크 생성 모듈 은 입력 비디오를 4D 장면 표현 으로 재구성하고, 사용자가 지정한 객체 위치와 스케일을 첫 프레임에 기반하여 장면 흐름(scene flow) 을 통해 객체 궤적을 전파하여 시간적 일관성과 가려짐 일관성을 유지하는 마스크 시퀀스를 생성합니다. 둘째, 확장된 확산 기반 비디오 생성 모델 은 삽입 객체와 주변의 조명 및 음영을 포함한 국지적 변화를 공동으로 합성합니다. 이를 위해 기존 ROSE 데이터셋을 확장한 ROSE++ 데이터셋을 구축하여 지도 학습에 활용합니다.

주요 결과

InsertAnywhere는 기존 상업용 모델 및 연구 결과 대비 우수한 성능을 보여주었습니다. VOIBench 벤치마크에서 CLIP-I 0.8122 , DINO-I 0.5678 , Multi-View Consistency 0.5857 등 대부분의 정량적 지표에서 가장 높은 점수를 달성했습니다. 사용자 연구에서도 삽입된 객체의 현실성, 조명 일관성, 가려짐 무결성 등 모든 평가 기준에서 가장 높은 선호도를 보였습니다.

AI 실무자를 위한 시사점

본 연구는 4D 장면 이해 를 확산 모델 과 결합하여 복잡한 비디오 편집 작업을 사실적으로 수행할 수 있는 강력한 방법을 제시합니다. 이는 가상 제품 배치 나 영화 후반 작업 과 같은 상업적 응용 분야에서 비디오 객체 삽입의 품질 을 크게 향상시킬 수 있습니다. 특히, 조명 및 음영 효과 까지 고려한 합성 능력은 실제 환경에서의 적용 가능성을 높이며, ROSE++ 와 같은 특정 태스크에 특화된 데이터셋 구축의 중요성을 강조합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search
현재글 : [논문리뷰] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion
다음글 [논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

[논문리뷰] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

핵심 연구 목표

핵심 방법론

주요 결과

AI 실무자를 위한 시사점

댓글

관련 포스트

Review 의 다른글