[논문리뷰] OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants
링크: 논문 PDF로 바로 열기
저자: Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- OmniInteract: 오디오-비주얼 스트림에서 실시간으로 발생하는 상호작용을 평가하기 위해 설계된 스트리밍 벤치마크입니다.
- Interaction Slot: 스트리밍 내에서 모델이 응답해야 하는 시간적 기회(Temporal response opportunity)를 정의하며, Trigger, Response Window, Target Answer로 구성됩니다.
- IA-QTF1 (Interaction-Aware Quality-Timeliness F1): 응답의 품질과 적시성(Timeliness)을 결합하여, 실시간 대화에서의 상호작용 성공 여부를 종합적으로 측정하는 핵심 지표입니다.
- Interruption Diagnostic Suite (IDS): 사용자의 개입이나 이벤트 발생 시 모델의 응답 중단, 대화 지속성, 문맥 복구 능력을 평가하는 진단 도구입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 오디오-비주얼 스트리밍 환경에서 Omnimodal Large Language Models가 실시간으로 상호작용하는 능력을 평가하는 데 있어 기존 벤치마크들의 한계를 해결하고자 합니다. 기존 연구(Offline Video QA 등)는 전체 영상을 미리 보고 응답하는 방식을 취하거나, 외부 텍스트 프롬프트를 사용하는 등 모델의 Native Online Streaming Inference와 실제 사용자 의도 인식 능력을 충분히 반영하지 못합니다 [Figure 1]. 이러한 접근 방식은 모델이 실제 인간과의 대화에서 필수적인 '언제 응답할지'에 대한 결정과, 사용자의 실시간 중단(Interruption)을 처리하는 능력을 평가하는 데 실패합니다. 이에 저자들은 실제 스트리밍 환경과 유사한 연속적인 오디오-비주얼 스트림에서 발생하는 상호작용의 단절 없는 평가를 제안합니다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
저자들은 각 응답 기회를 시간적으로 정밀하게 정의한 Interaction Slot formulation을 제안하여, 1Q1A(단일 응답) 및 1QnA(연속 모니터링) 시나리오에서의 상호작용을 측정합니다 [Figure 3]. 모델은 스트리밍 영상을 보며 실시간으로 Trigger를 감지하고, 지정된 Response Window 내에서 적절한 답변을 생성해야 하며, 이는 IA-QTF1 지표를 통해 엄격하게 정량화됩니다. 실험 결과, 현재의 대표적인 모델들(AURA, Gemini 2.5 Flash Live, MiniCPM-o 4.5, Qwen3.5-Omni)조차도 1QnA와 같은 장기적 모니터링 과제에서는 IA-QTF1 점수가 0.052 이하로 나타나는 등 실시간 대화 관리 성능이 저조함을 확인했습니다 [Table 3]. 특히 MiniCPM-o 4.5의 경우 오프라인 추론 성능에 비해 온라인 실시간 상호작용 시 수학적 추론 능력이 -0.3358(Absolute Drop)만큼 감소하는 결과를 보여주어, 오프라인 모델의 성능이 실시간 상호작용으로 직결되지 않음을 입증했습니다 [Table 6].
4. Conclusion & Impact (결론 및 시사점)
본 연구는 OmniInteract 벤치마크를 통해 오디오-비주얼 스트리밍 환경에서의 실시간 상호작용 평가 표준을 제시하였습니다. 실험을 통해 확인된 모델들의 상호작용 제어 능력의 미흡함은 향후 더 자연스럽고 신뢰할 수 있는 Real-time Omnimodal Assistants 개발을 위한 구체적인 연구 방향을 제공합니다. 이는 학계가 단순히 정적인 데이터 이해를 넘어, 인간과 같이 연속적인 시간 흐름 속에서 상호작용하는 지능형 에이전트의 완성도를 높이는 데 중요한 기여를 할 것으로 기대됩니다.
Part 2: 중요 Figure 정보

Figure 1 — 기존 방식 대비 OmniInteract 비교

Figure 3 — 상호작용 슬롯 구성 및 매칭 방식
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models
- [논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes
- [논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft
- [논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers
- [논문리뷰] 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code
Review 의 다른글
- 이전글 [논문리뷰] ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage
- 현재글 : [논문리뷰] OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants
- 다음글 [논문리뷰] OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources
댓글