[논문리뷰] Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation본 연구는 Ming-Omni 의 업그레이드 버전인 Ming-Flash-Omni 를 제안하여, 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 시각, 음성, 언어 전반에 걸쳐 더욱 강력하고 통합된 멀티모달 지능을 구현하는 것을 목표로 합니다.#Review#Multimodal AI#Sparse MoE#Unified Architecture#Perception#Generation#Contextual ASR#Image Editing#Generative Segmentation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark본 논문은 통합 멀티모달 모델의 생성(Generation) 및 이해(Understanding) 능력 간의 실제적인 상호작용 을 평가하는 기존 벤치마크의 한계를 해결하는 것을 목표로 합니다.#Review#Multimodal AI#Unified Models#Benchmark#Generation#Understanding#Reasoning#Evaluation#Cross-modal Synergy2025년 10월 16일댓글 수 로딩 중