[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.#Review#Unified Generation#Multimodal Diffusion#Vision-Language Model#Image Editing#Video Editing#Interleaved Context#Progressive Training#Diffusion Transformer2026년 1월 5일댓글 수 로딩 중
[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.#Review#Real-time Video Generation#Multimodal Diffusion#On-Policy Distillation#Interactive AI Avatars#Video Streaming#Anchor-Heavy Identity Sinks#Lip Synchronization2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Mixture of States: Routing Token-Level Dynamics for Multimodal Generation본 논문은 멀티모달 확산 모델에서 텍스트 및 시각 신호의 효과적인 정렬 문제를 해결하고자 합니다.#Review#Multimodal Diffusion#Mixture of States (MoS)#Token-Level Routing#Dynamic Conditional Fusion#Text-to-Image Generation#Image Editing#Transformer Architecture2025년 11월 19일댓글 수 로딩 중
[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of Experts본 논문은 기존 비디오 생성 모델 들이 시각적 도메인에만 집중하여 오디오-비디오의 다중 모달 특성을 간과하는 문제를 해결하고, Google Veo3 와 같은 폐쇄형 시스템에 필적하는 통합된 오디오-비디오 생성 모델 인 UniVerse-1 을 오픈 소스로 개발하는 것을 목표로 합니다.#Review#Unified Audio-Video Generation#Stitching of Experts (SoE)#Multimodal Diffusion#Online Annotation#Cross-modal Noise Correlation#Foundation Models#Verse-Bench2025년 9월 9일댓글 수 로딩 중