[논문리뷰] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

2026년 2월 22일수정: 2026년 2월 22일

링크: 논문 PDF로 바로 열기

저자: Linxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

핵심 연구 목표

본 논문은 기존 비디오 월드 모델이 가진 제한적인 제어 신호(텍스트 또는 키보드) 의 한계를 극복하고, 사용자의 머리 및 손 움직임 추적 데이터 를 활용하여 사람 중심의 인터랙티브 가상 환경 을 생성하는 것을 목표로 합니다. 이를 통해 XR 애플리케이션의 콘텐츠 제작 비용과 노력을 줄이고, 몰입도 높은 사용자 경험을 제공하고자 합니다.

핵심 방법론

사용자의 머리 및 손 추적 데이터를 통합하기 위해 하이브리드 2D-3D 컨디셔닝 전략 을 제안합니다. 이는 ControlNet 스타일 2D 스켈레톤 비디오 와 3D 조인트 레벨 손 자세 파라미터(HPP) 를 토큰 추가(token addition) 방식으로 결합합니다. 또한, 6-DoF 카메라 포즈 를 Plücker 임베딩 으로 변환하여 손 컨디셔닝과 함께 element-wise addition 방식으로 비디오 확산 모델에 주입합니다. 최종적으로, 양방향 비디오 확산 모델 교사(teacher) 를 인과적(causal)이고 인터랙티브한 자동회귀 학생(student) 모델 로 증류하여 실시간 생성을 가능하게 합니다.

주요 결과

제안된 하이브리드 2D-3D 컨디셔닝 전략은 손 자세 정확도 측면에서 MPJPE 12.23, MPVPE 9.10, L2Err 11.50 를 달성하여 기존 베이스라인들을 능가했습니다. 공동 손-카메라 컨디셔닝 모델은 높은 비디오 품질을 유지하면서 PSNR 18.60 , 카메라 자세 정확도 TransErr 0.25, RotErr 2.79 를 기록했습니다. 사용자 연구에서는 베이스라인 대비 71.2%의 높은 작업 정확도 와 현저히 높은 인지된 제어량(평균 점수 4.21) 을 보였으며, H100 GPU 에서 1.4초 지연 으로 11 FPS 를 달성했습니다.

AI 실무자를 위한 시사점

본 연구는 XR 콘텐츠 생성 에 있어 미세한 인간 동작 제어 를 비디오 생성 모델에 통합하는 실용적인 방법을 제시합니다. 하이브리드 2D-3D 컨디셔닝 및 모델 증류 와 같은 기술은 실시간 인터랙티브 AI 시스템 개발에 중요한 통찰력을 제공하며, 복잡한 3D 모델링 없이 가상 환경을 제로샷 으로 생성할 수 있는 길을 열어줍니다. 현재의 지연 시간 및 이미지 품질 한계는 있지만, 미래의 몰입형 학습 및 훈련 애플리케이션을 위한 강력한 기반을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
현재글 : [논문리뷰] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control
다음글 [논문리뷰] Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty