[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다.#Review#Omni-modal LLM#Audio-Visual Dialogue#Multi-turn Interaction#Speech Generation#Long-term Memory#Multimodal Understanding#End-to-end Training2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training본 연구는 픽셀 공간(pixel-space) 기반 생성 모델이 잠재 공간(latent-space) 기반 모델에 비해 훈련이 어렵고 성능이 낮은 문제점을 해결하여, 성능 및 효율성 격차를 해소하는 것을 목표로 합니다.#Review#Pixel-space Generative Models#Diffusion Models#Consistency Models#Self-supervised Pre-training#End-to-end Training#Image Generation#FID#Representation Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints본 논문은 기존 Compositional MLLMs의 분리된 훈련으로 인한 불분명한 멀티모달 스케일링 속성 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models#Native MLLMs#Scaling Laws#Data Constraints#Visual Encoder#LLM Initialization#Mixture-of-Experts#End-to-end Training2025년 10월 10일댓글 수 로딩 중