[논문리뷰] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

수정: 2026년 1월 27일

링크: 논문 PDF로 바로 열기

저자: Chenyu Mu*, Xin He*, Qu Yang*, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu⁺, Xiaolong Li, and Linus

핵심 연구 목표

컴퓨터 비전 모델이 긴 서사적 일관성을 유지하지 못하고, 대화 같은 고수준의 아이디어와 시네마틱 실행 간의 "의미론적 간극"을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 단순 대화 입력만으로 장기적이고 일관성 있는 시네마틱 비디오를 자동 생성하는 엔드투엔드 프레임워크를 개발하고자 합니다.

핵심 방법론

본 연구는 ScripterAgent, DirectorAgent, CriticAgent3가지 전문 에이전트 로 구성된 에이전트 기반 프레임워크 를 제안합니다. ScripterAgent는 대화에서 ScriptBench 벤치마크를 활용하여 상세한 시네마틱 스크립트를 생성하며, 이를 위해 SFT(Supervised Fine-Tuning)와 GRPO(Group Relative Policy Optimization)를 포함한 2단계 훈련하이브리드 보상 함수 를 사용합니다. DirectorAgentCross-Scene Continuous Generation StrategyFrame-Anchoring Mechanism 을 통해 스크립트를 시각적으로 일관된 장기 비디오로 변환하며, CriticAgentAI 기반 평가 와 새로운 Visual-Script Alignment (VSA) 메트릭 을 사용하여 스크립트 및 비디오 품질을 종합적으로 평가합니다.

주요 결과

ScripterAgentScript Faithfulness 를 최대 +0.4점 향상시키고, Dramatic Tension (4.1 vs 3.7) 및 Visual Imagery (4.3 vs 3.8)에서 인간 평가 기준 최고 점수를 달성했습니다. 전체 프레임워크는 모든 비디오 모델에서 Visual-Script Alignment (VSA)7점 이상 향상시켜 시간-의미론적 충실도를 검증했습니다. 또한, Sora2-ProAesthetic quality (62.8)Dynamic Degree (79.5) 에서 시각적 화려함이 높은 반면, HYVideo1.5Script Faithfulness (4.6)Subject Consistency (97.2) 에서 내러티브 무결성이 높은 등 SOTA 모델 간의 시각적 스펙터클과 스크립트 준수 간의 트레이드오프를 밝혀냈습니다.

AI 실무자를 위한 시사점

이 프레임워크는 대화만으로도 전문적인 시네마틱 스크립트를 생성 하고, 이를 통해 장기적인 시각적 일관성을 갖춘 비디오를 합성 하는 실용적인 방법을 제시합니다. LLM 기반 에이전트 를 활용한 스토리텔링 시스템 설계에 중요한 방향을 제시하며, 스크립트 기반의 계획 단계 가 비디오 생성의 내러티브 일관성과 시간적 충실도를 높이는 데 결정적인 역할을 함을 강조합니다. 특히 Frame-Anchoring 기법은 시각적 드리프트 문제 해결에 효과적이므로, 실제 영화 제작 파이프라인에 적용 가능한 잠재력을 가집니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Dialogue-to-Video Generation#Agentic AI#Cinematic Scripting#Long-Horizon Video Synthesis#Visual Coherence#Reinforcement Learning#Multimodal LLM

Review 의 다른글