본문으로 건너뛰기

[논문리뷰] WildActor: Unconstrained Identity-Preserving Video Generation

링크: 논문 PDF로 바로 열기

저자: Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu

핵심 연구 목표

본 논문은 기존 비디오 생성 모델이 동적인 움직임, 시점 변화에도 불구하고 일관된 전신(full-body) 신원(identity)을 유지 하는 데 실패하고, 얼굴 중심적 편향, 자세 고정(pose locking) 등의 문제를 겪는다는 점을 지적합니다. 또한, 대규모의 시점 불변(view-invariant) 인간 비디오 데이터셋이 부족하다는 문제점을 해결하고, 제약 없는 환경에서 신원을 보존하는 비디오 생성 프레임워크 를 개발하는 것을 목표로 합니다.

핵심 방법론

연구팀은 Actor-18M 이라는 1.6M 비디오, 18M 이미지 규모의 대규모 인간 비디오 데이터셋을 구축했으며, Viewpoint TransformationAttribute Diversification 을 통해 데이터의 시점 및 환경 다양성을 보강했습니다. 이를 기반으로 WILDACTOR 프레임워크를 제안했는데, 이는 Asymmetric Identity-Preserving Attention (AIPA) 메커니즘을 통해 비디오 토큰이 레퍼런스 토큰으로부터 신원 정보를 비대칭적으로 수신하도록 하여 신원 유출을 방지합니다. 또한, Identity-Aware 3D ROPE (I-ROPE) 를 활용해 비디오와 레퍼런스 토큰을 명확히 구분하고, Viewpoint-Adaptive Monte Carlo Sampling 전략으로 학습 시 보완적인 시점의 레퍼런스 이미지를 효율적으로 샘플링합니다.

주요 결과

Actor-18M 데이터셋은 기존 데이터의 심각한 정면 시점 편향(raw 데이터의 63.1%가 정면)을 Actor-18M-A 를 통해 측면 시점(70.5%)으로 보강하여 해결했습니다. WILDACTOR 는 제안된 Actor-Bench 에서 기존 방법론들을 능가하는 성능을 보였는데, 특히 Contextual Generalization 태스크에서 Body Consistency 점수 0.952 를 달성하여 상업 모델인 Vidu Q2 (0.905)Kling 1.6 (0.885) 을 뛰어넘었습니다. VLM-Level Semantic Alignment 에서도 0.920 로 최고 성능을 기록했습니다.

AI 실무자를 위한 시사점

WildActor 는 높은 신원 일관성을 유지하면서 다양한 시점, 환경, 동작 변화에 강인한 비디오 생성을 가능하게 하여, 디지털 휴먼, 가상현실, 메타버스 콘텐츠 제작 등에서 실용적인 응용 가능성 을 제시합니다. Actor-18M 과 같은 대규모의 잘 정제된 데이터셋 구축의 중요성을 강조하며, 특히 시점 다양성 보강 기법 은 데이터 불균형 문제를 해결하는 효과적인 전략으로 활용될 수 있습니다. AIPAI-ROPE 와 같은 기술은 향후 신원 보존 및 자세 유연성 문제를 해결하는 비디오 생성 모델 개발에 중요한 설계 원칙으로 참고될 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글