#Multimodal Diffusion

4개의 포스트

[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context

본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.

#Review #Unified Generation #Multimodal Diffusion #Vision-Language Model #Image Editing #Video Editing #Interleaved Context #Progressive Training #Diffusion Transformer

2026년 1월 5일

[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.

#Review #Real-time Video Generation #Multimodal Diffusion #On-Policy Distillation #Interactive AI Avatars #Video Streaming #Anchor-Heavy Identity Sinks #Lip Synchronization

2025년 12월 29일

[논문리뷰] Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

본 논문은 멀티모달 확산 모델에서 텍스트 및 시각 신호의 효과적인 정렬 문제를 해결하고자 합니다.

#Review #Multimodal Diffusion #Mixture of States (MoS)#Token-Level Routing #Dynamic Conditional Fusion #Text-to-Image Generation #Image Editing #Transformer Architecture

2025년 11월 19일

[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

본 논문은 기존 비디오 생성 모델 들이 시각적 도메인에만 집중하여 오디오-비디오의 다중 모달 특성을 간과하는 문제를 해결하고, Google Veo3 와 같은 폐쇄형 시스템에 필적하는 통합된 오디오-비디오 생성 모델 인 UniVerse-1 을 오픈 소스로 개발하는 것을 목표로 합니다.

#Review #Unified Audio-Video Generation #Stitching of Experts (SoE)#Multimodal Diffusion #Online Annotation #Cross-modal Noise Correlation #Foundation Models #Verse-Bench

2025년 9월 9일