[논문리뷰] Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 주로 사용하는 자기회귀(autoregressive) 아키텍처 의 한계를 극복하고, 텍스트, 음성, 이미지 전반에 걸친 이해 및 생성을 통합할 수 있는 새로운 확률적 모델링 대안 을 탐색하는 것을 목표로 합니다.#Review#Multimodal AI#Discrete Diffusion Models#Masked Language Modeling#Unified Generative Models#Any-to-Any#Speech-to-Image#Visual Question Answering2026년 3월 10일댓글 수 로딩 중