[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context

2026년 1월 5일수정: 2026년 1월 5일

링크: 논문 PDF로 바로 열기

저자: Junyi Chen, Tong He, Zhoujie Fu, Pengfei Wan, Kun Gai, Weicai Ye

핵심 연구 목표

본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다. 특히, 이질적인 멀티모달 입력(텍스트, 이미지, 비디오)을 효과적으로 처리하고, 신뢰성 있게 disentangle하여 일관된 제어를 가능하게 하는 데 중점을 둡니다.

핵심 방법론

VINO는 vision-language model (VLM) 과 Multimodal Diffusion Transformer (MMDiT) 를 결합합니다. VLM은 모든 제어 신호를 인터리브된 컨디셔닝 토큰 으로 인코딩하며, 이 토큰들은 MMDiT 의 diffusion 프로세스를 안내합니다. 특히, 학습 가능한 쿼리 토큰 을 VLM 입력에 도입하여 멀티모달 컨디셔닝 안정성을 높였고, 토큰 경계 메커니즘 을 통해 VAE latent와 VLM 임베딩 간의 일관된 정렬을 보장합니다. 다단계 점진적 훈련 전략 은 텍스트-투-비디오 기본 모델을 다중 작업 생성기로 확장합니다.

주요 결과

VINO는 Geneval 및 VBench 벤치마크에서 기존 HunyuanVideo 기본 모델에 필적하는 강력한 텍스트-투-비디오 생성 능력을 유지하면서, ImgEdit 및 GEdit 벤치마크에서 강력한 이미지 편집 성능을 입증했습니다. 또한, OpenS2V 벤치마크에서 참조 기반 비디오 생성에 있어 명확한 이점을 보였으며, 사용자 연구에서는 VACE-Ditto 대비 우수한 지시 사항 준수 및 비디오 품질을 달성했습니다.

AI 실무자를 위한 시사점

VINO는 단일 모델로 광범위한 시각 생성 및 편집 작업을 처리할 수 있는 확장 가능한 통합 프레임워크 를 제공합니다. 인터리브된 인-컨텍스트 컴퓨테이션 은 일반 목적 시각 생성의 토대가 될 수 있음을 시사하며, 학습 가능한 쿼리 토큰 과 토큰 경계 메커니즘 은 복잡한 멀티모달 조건부 생성에서 안정적인 최적화와 정확한 제어를 위한 핵심 요소임을 보여줍니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
현재글 : [논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context
다음글 [논문리뷰] CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving