#Audio-Visual Dialogue

1개의 포스트

[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다.

#Review #Omni-modal LLM #Audio-Visual Dialogue #Multi-turn Interaction #Speech Generation #Long-term Memory #Multimodal Understanding #End-to-end Training

2025년 10월 16일