[논문리뷰] PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

2026년 3월 8일수정: 2026년 3월 8일

링크: 논문 PDF로 바로 열기

저자: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu

핵심 연구 목표

본 연구는 단일 RGB 이미지로부터 완전한 3D 실내 장면의 메쉬를 자동회귀 방식으로 재구성하는 것을 목표로 합니다. 기존 Implicit Signed Distance Fields (SDF) 기반 방법론의 한계인 복잡한 후처리 및 낮은 품질의 메쉬 생성 문제를 해결하고, 객체의 레이아웃과 형상을 통일된 모델 내에서 예측하여 일관성 있고 예술적인 메쉬를 생성하고자 합니다.

핵심 방법론

PixARMesh 는 객체 수준 메쉬 생성 모델 (EdgeRunner, BPT) 을 기반으로 하며, 픽셀 정렬 이미지 특징(pixel-aligned image features) 과 전역 장면 컨텍스트(global scene context) 를 크로스-어텐션 을 통해 포인트 클라우드 인코더에 통합합니다. 이후, 자동회귀 트랜스포머 디코더 를 사용하여 객체 포즈 와 메쉬 토큰 시퀀스 를 단일 순방향 패스(single feed-forward pass)로 공동 예측합니다. 포즈는 바운딩 박스 코너 토큰으로, 메쉬는 압축 메쉬 토큰화 방식으로 표현됩니다.

주요 결과

PixARMesh 는 합성 데이터셋 3D-FRONT 에서 기존 최첨단 방법 대비 우수한 성능을 달성했습니다. 특히, 장면 수준에서 Chamfer Distance (CD) 가 98.8 (PixARMesh-EdgeRunner) 로 DepR 의 153.2 보다 크게 낮고, F-Score 는 33.55% 로 DepR 의 25.00% 를 상회합니다. 또한, 기존 SDF 기반 방법들이 수백만 개의 면을 생성하는 반면, PixARMesh 는 개체당 약 7-8천 개의 면 으로 훨씬 더 간결하고 고품질의 메쉬를 생성합니다.

AI 실무자를 위한 시사점

본 연구는 단일 뷰 3D 장면 재구성에서 네이티브 메쉬 표현을 직접 생성하는 새로운 패러다임을 제시하며, SDF 기반 파이프라인의 복잡한 후처리 단계를 제거합니다. 포즈 및 메쉬의 자동회귀 공동 예측 은 전체 파이프라인을 간소화하고 장면의 일관성을 높입니다. 생성된 메쉬가 아티스트 친화적(artist-ready) 이며 가벼워 그래픽스 및 게임 개발 등 다양한 다운스트림 애플리케이션에 실질적으로 활용될 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Physical Simulator In-the-Loop Video Generation
현재글 : [논문리뷰] PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction
다음글 [논문리뷰] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model