[논문리뷰] The Design Space of Tri-Modal Masked Diffusion Models본 논문은 텍스트, 이미지-텍스트, 오디오-텍스트 데이터에 대해 처음부터 사전 훈련된 최초의 삼중 모달(tri-modal) 마스크드 확산 모델(MDM) 을 소개합니다.#Review#Masked Diffusion Models#Multimodal AI#Scaling Laws#Discrete Diffusion#SDE Parameterization#Hyperparameter Transfer#Unified Generation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.#Review#Unified Generation#Multimodal Diffusion#Vision-Language Model#Image Editing#Video Editing#Interleaved Context#Progressive Training#Diffusion Transformer2026년 1월 5일댓글 수 로딩 중