[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn DialogueDongchuan Ran이 arXiv에 게시한 'InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue' 논문에 대한 자세한 리뷰입니다.#Review#Omni-modal LLM#Audio-Visual Dialogue#Multi-turn Interaction#Speech Generation#Long-term Memory#Multimodal Understanding#End-to-end Training2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-trainingarXiv에 게시된 'Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training' 논문에 대한 자세한 리뷰입니다.#Review#Pixel-space Generative Models#Diffusion Models#Consistency Models#Self-supervised Pre-training#End-to-end Training#Image Generation#FID#Representation Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data ConstraintsarXiv에 게시된 'NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Native MLLMs#Scaling Laws#Data Constraints#Visual Encoder#LLM Initialization#Mixture-of-Experts#End-to-end Training2025년 10월 10일댓글 수 로딩 중