#End-to-end Training

3개의 포스트

[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다.

#Review #Omni-modal LLM #Audio-Visual Dialogue #Multi-turn Interaction #Speech Generation #Long-term Memory #Multimodal Understanding #End-to-end Training

2025년 10월 16일

[논문리뷰] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

본 연구는 픽셀 공간(pixel-space) 기반 생성 모델이 잠재 공간(latent-space) 기반 모델에 비해 훈련이 어렵고 성능이 낮은 문제점을 해결하여, 성능 및 효율성 격차를 해소하는 것을 목표로 합니다.

#Review #Pixel-space Generative Models #Diffusion Models #Consistency Models #Self-supervised Pre-training #End-to-end Training #Image Generation #FID #Representation Learning

2025년 10월 15일

[논문리뷰] NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

본 논문은 기존 Compositional MLLMs의 분리된 훈련으로 인한 불분명한 멀티모달 스케일링 속성 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Native MLLMs #Scaling Laws #Data Constraints #Visual Encoder #LLM Initialization #Mixture-of-Experts #End-to-end Training

2025년 10월 10일