#Omni-modal LLM

2개의 포스트

[논문리뷰] Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

본 논문은 현대의 Omni-modal LLM들이 기록하는 벤치마크 성능 향상이 진정한 모달리티 통합(integration)보다는 visual shortcut을 활용한 결과일 수 있다는 문제를 제기합니다.

#Review #Omni-modal LLM #Visual Leakage #OmniClean #Staged Post-Training #Self-Distillation #Reinforcement Learning

2026년 5월 14일

[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다.

#Review #Omni-modal LLM #Audio-Visual Dialogue #Multi-turn Interaction #Speech Generation #Long-term Memory #Multimodal Understanding #End-to-end Training

2025년 10월 16일