[논문리뷰] Lighting-grounded Video Generation with Renderer-based Agent Reasoning

2026년 4월 9일수정: 2026년 4월 9일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Ziqi Cai, Taoyu Yang, Zheng Chang, Si Li, Han Jiang, Shuchen Weng, Boxin Shi

1. Key Terms & Definitions (핵심 용어 및 정의)

LiVER : Lighting-grounded Video genERation의 약자로, 3D scene proxy를 활용하여 물리적으로 정확한 조명, 레이아웃, 카메라 제어가 가능한 비디오 생성 프레임워크.
Scene Proxy : 3D 렌더러를 통해 생성된 diffuse, glossy GGX, rough GGX 패스(pass)의 스택으로, 비디오 생성 모델에 물리적인 조명과 기하학적 레이아웃 정보를 전달하는 2D 제어 신호.
Renderer-based Agent : 사용자의 텍스트 입력을 파싱하여 3D scene graph를 구성하고, 물리적 조명 환경과 카메라 경로를 추론하여 최종 scene proxy를 생성하는 지능형 모듈.
LiVERSet : 본 연구를 위해 구축된 대규모 조명 기반 비디오 데이터셋으로, 실제 촬영 영상(LiVER-Real)과 물리 기반 렌더링 영상(LiVER-Syn)으로 구성됨.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

기존의 비디오 생성 모델은 시각적 품질은 뛰어나지만, 물리적 환경(조명, 레이아웃, 카메라 등)에 대한 정밀한 제어가 부족하여 영화 제작이나 가상 프로덕션과 같은 고도로 통제된 환경에서의 활용에 한계가 있다. 기존 연구들은 카메라나 객체 궤적 같은 3D 정보로 생성 과정을 제어하려 시도했으나, 빛의 물리적 상호작용(예: 쉐이딩, 반사)을 제대로 모델링하지 못해 사실적인 결과물 생성에 어려움을 겪는다. 본 연구는 물리적으로 정확한 조명 및 scene 속성을 명시적 조건으로 활용하여 비디오의 물리적 일관성과 제어 가능성을 동시에 확보하는 것을 목표로 한다 [Figure 1].

Figure 1: LiVER 전체 프레임워크

Figure 1 — LiVER 전체 프레임워크

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 3D scene proxy를 통해 조명을 제어하는 LiVER 프레임워크를 제안한다. 먼저 Renderer-based Agent가 텍스트 명령을 분석하여 3D 구조를 생성하고, 이를 2D 렌더 패스(diffuse, rough/glossy GGX)로 변환하여 물리적 단서를 추출한다 [Figure 3]. 추출된 이 scene proxy는 경량화된 Proxy Encoder와 Adapter를 통해 사전 학습된 비디오 확산 모델(주로 Wan2.2-5B )에 주입되어 생성 과정을 유도한다 [Figure 3]. 안정적인 학습을 위해 제안된 3단계 학습 기법은 프록시 변환 학습, LoRA 기반의 공동 미세 조정, 그리고 다양한 조명 데이터 혼합 순으로 진행된다. 실험 결과, LiVER 는 기존 모델들(CameraCtrl, MotionCtrl 등) 대비 FVD 및 FID 지표에서 우수한 성능을 보여 비디오 품질과 사실성 측면에서 우위를 점했다 [Table 1]. 특히, 조명 제어(LE, LI) 및 레이아웃 유지( mIoU ) 지표에서도 압도적인 수치를 기록하여 제어 충실도(Control Fidelity)를 입증했다 [Table 1].

Figure 3: LiVER 파이프라인 및 제어 흐름

Figure 3 — LiVER 파이프라인 및 제어 흐름

Table 1: 정량적 성능 비교

Table 1 — 정량적 성능 비교

4. Conclusion & Impact (결론 및 시사점)

본 논문은 조명, 레이아웃, 카메라를 공동으로 모델링하여 조명 기반의 제어 가능한 비디오 생성을 가능하게 하는 LiVER 를 제안했다. 이 연구는 생성 모델의 품질과 장면 제어 능력 사이의 간극을 좁히며, 창작 미디어와 가상 촬영 분야에서 실용적인 솔루션을 제공한다. 3D 소프트웨어와 연동 가능한 워크플로우를 제공함으로써 사용자에게 높은 편집 자유도를 보장하는 점이 핵심 시사점이다. 향후 더 정밀한 3D 재구성을 위한 프롬프트 엔지니어링 고도화가 연구될 예정이다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] LPM 1.0: Video-based Character Performance Model
현재글 : [논문리뷰] Lighting-grounded Video Generation with Renderer-based Agent Reasoning
다음글 [논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping