[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video GenerationarXiv에 게시된 'JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Joint Audio-Video Generation#Diffusion Transformer#Modality-specific Mixture-of-Experts#Temporal-Aligned ROPE#Direct Preference Optimization#Multimodal Generation#Text-to-AV2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language ModelsTianshu Yu이 arXiv에 게시한 'Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Omni-modal LLMs#3D Facial Animation#Speech-to-Face Generation#Token-as-Query Gated Fusion (TQGF)#Discrete Speech Units#ARKit-52 Blendshapes#InstructEx Dataset#Multimodal Generation2026년 2월 11일댓글 수 로딩 중
[논문리뷰] TUNA: Taming Unified Visual Representations for Native Unified Multimodal ModelsarXiv에 게시된 'TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Visual Representation#VAE#Flow Matching#Multimodal Understanding#Multimodal Generation#Image Editing#State-of-the-Art2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and DataarXiv에 게시된 'Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data' 논문에 대한 자세한 리뷰입니다.#Review#Omnimodal Large Models#Mixture-of-Experts (MoE)#Language-Centric AI#Multimodal Understanding#Multimodal Generation#Progressive Training#Omni-Modality 3D RoPE2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video GenerationarXiv에 게시된 'Uniform Discrete Diffusion with Metric Path for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Discrete Diffusion#Video Generation#Metric Path#Long Video Generation#Asynchronous Scheduling#Text-to-Video#Multimodal Generation2025년 10월 29일댓글 수 로딩 중
[논문리뷰] DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal GenerationarXiv에 게시된 'DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Generation#Dialect Robustness#Text-to-Image#Text-to-Video#Benchmarking#Diffusion Models#Text Encoder Tuning#Low-Resource Dialects2025년 10월 17일댓글 수 로딩 중
[논문리뷰] OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit FlowsarXiv에 게시된 'OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows' 논문에 대한 자세한 리뷰입니다.#Review#Non-Autoregressive#Multimodal Generation#Edit Flows#Flow Matching#Interleaved Generation#Text-to-Image Synthesis#Unified Models2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Discrete Diffusion Models with MLLMs for Unified Medical Multimodal GenerationarXiv에 게시된 'Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Discrete Diffusion Models#Multimodal Large Language Models (MLLMs)#Medical Image Generation#Medical Report Generation#Multimodal Generation#Medical AI#Cross-modal Alignment2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?Hui Han이 arXiv에 게시한 'Can Understanding and Generation Truly Benefit Together -- or Just Coexist?' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Understanding#Multimodal Generation#Unified Models#Auto-Encoder#Reinforcement Learning#Image-to-Text#Text-to-Image#Reconstruction Fidelity2025년 9월 12일댓글 수 로딩 중
[논문리뷰] MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video GenerationYan Zhou이 arXiv에 게시한 'MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Generation#Digital Human Synthesis#Real-time Video Generation#Autoregressive LLM#Diffusion Models#Deep Compression Autoencoder#Exposure Bias Mitigation#Streaming Inference2025년 8월 28일댓글 수 로딩 중
[논문리뷰] EgoTwin: Dreaming Body and View in First PersonWentao Wang이 arXiv에 게시한 'EgoTwin: Dreaming Body and View in First Person' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric Video Generation#Human Motion Synthesis#Diffusion Transformers#Multimodal Generation#Viewpoint Alignment#Causal Interplay#First-Person Vision2025년 8월 25일댓글 수 로딩 중