[논문리뷰] RELIC: Interactive Video World Model with Long-Horizon Memory

수정: 2025년 12월 4일

링크: 논문 PDF로 바로 열기

저자: Yicong Hong, Yiqun Mei, Chongjian Ge, et al.

핵심 연구 목표

논문은 실시간 장기 스트리밍, 일관된 공간 메모리, 정밀한 사용자 제어라는 세 가지 핵심 요소를 동시에 만족하는 상호작용 가능한 비디오 월드 모델 을 구축하는 것을 목표로 합니다. 기존 접근 방식들이 이 중 하나만을 다루거나, 장기 메모리 메커니즘이 실시간 성능을 저하시키는 문제를 해결하고자 합니다.

핵심 방법론

RELIC고도로 압축된 과거 잠재 토큰상대적 동작(relative actions)절대적 카메라 포즈(absolute camera poses) 와 함께 KV 캐시 에 저장하여 장기 메모리를 효율적으로 표현합니다. 이 모델은 20초 시퀀스 를 생성하도록 양방향 교사 비디오 모델 을 미세 조정하고, 메모리 효율적인 자가 강제(self-forcing) 패러다임 을 도입하여 장시간 교사 모델 및 학생 모델의 자체 롤아웃에 대한 전체 문맥 증류(distillation)를 가능하게 합니다. 또한, 큐레이션된 Unreal Engine 렌더링 데이터셋 으로 학습되어 실제와 같은 환경에서의 일반화 능력을 향상시킵니다.

주요 결과

14B 파라미터 모델RELIC480x832 해상도 에서 16 FPS 의 실시간 생성을 달성했습니다. 정량적 비교에서 RELICMatrix-Game-2.0Hunyuan-GameCraft 를 능가하는 평균 점수 0.8015 를 기록했으며, 0.0906의 가장 낮은 변환 RPE(Translational Relative Pose Error)1.00의 가장 낮은 회전 RPE(Rotational Relative Pose Error) 를 달성하여 더 정확한 동작 추종과 안정적인 장기 스트리밍 성능을 입증했습니다.

AI 실무자를 위한 시사점

RELIC압축된 공간 메모리자가 강제 증류 기법을 통해 실시간 성능장기적인 공간 일관성 을 동시에 달성하는 효과적인 방법을 제시합니다. 이 프레임워크는 자율 주행, 로보틱스, 몰입형 가상 콘텐츠 생성과 같은 분야에서 일반 목적의 월드 시뮬레이터 를 위한 확장 가능하고 유연한 기반을 제공하며, Unreal Engine 기반의 고품질 데이터 학습 전략은 제어 정밀도와 일반화 능력을 향상시키는 중요한 시사점을 줍니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Interactive World Model#Video Generation#Long-Horizon Memory#Real-Time Streaming#Diffusion Models#Autoregressive Models#Spatial Consistency#Unreal Engine

Review 의 다른글