[논문리뷰] LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning본 논문은 기존의 Explicit Text CoT 기반 MLLM이 고차원 오디오-비주얼 정보를 텍스트라는 좁은 병목으로 압축함에 따라, 다중 모달 간의 세밀한 시간적 정렬과 의미적 연결을 놓치는 문제를 해결하고자 한다.#Review#Multimodal Large Language Models#Audio-Visual Reasoning#Latent Reasoning#Cross-modal Alignment#Chain-of-Thought#Instruction Tuning2026년 5월 21일댓글 수 로딩 중
[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs기존 벤치마크들이 주로 회고적 이해에 초점을 맞추는 한계를 해결하기 위해, 오디오-비주얼 환경에서 멀티모달 대규모 언어 모델(MLLM)의 미래 사건 예측 능력 을 평가하는 것을 목표로 합니다. 특히, 모델이 교차 모달 인과 및 시간 추론 을 수행하고 내부 지식을 활용하여 미래 이벤트를 예측하는 능력을 평가하고자 합니다.#Review#Multimodal LLMs#Future Forecasting#Audio-Visual Reasoning#Benchmark#Instruction Tuning#Omni-Modal#Causal Reasoning2026년 1월 20일댓글 수 로딩 중