[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal ContextKun Gai이 arXiv에 게시한 'VINO: A Unified Visual Generator with Interleaved OmniModal Context' 논문에 대한 자세한 리뷰입니다.#Review#Unified Generation#Multimodal Diffusion#Vision-Language Model#Image Editing#Video Editing#Interleaved Context#Progressive Training#Diffusion Transformer2026년 1월 5일댓글 수 로딩 중
[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy DistillationSteffi Chern이 arXiv에 게시한 'LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Real-time Video Generation#Multimodal Diffusion#On-Policy Distillation#Interactive AI Avatars#Video Streaming#Anchor-Heavy Identity Sinks#Lip Synchronization2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Mixture of States: Routing Token-Level Dynamics for Multimodal GenerationarXiv에 게시된 'Mixture of States: Routing Token-Level Dynamics for Multimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Diffusion#Mixture of States (MoS)#Token-Level Routing#Dynamic Conditional Fusion#Text-to-Image Generation#Image Editing#Transformer Architecture2025년 11월 19일댓글 수 로딩 중
[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of ExpertsXinyao Liao이 arXiv에 게시한 'UniVerse-1: Unified Audio-Video Generation via Stitching of Experts' 논문에 대한 자세한 리뷰입니다.#Review#Unified Audio-Video Generation#Stitching of Experts (SoE)#Multimodal Diffusion#Online Annotation#Cross-modal Noise Correlation#Foundation Models#Verse-Bench2025년 9월 9일댓글 수 로딩 중