[논문리뷰] OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains
링크: 논문 PDF로 바로 열기
메타데이터
저자: Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan
1. Key Terms & Definitions (핵심 용어 및 정의)
- Entity-Anchored Video Scripting: 비디오를 요약, 주요 개체 목록, 세그먼트별 시청각 설명으로 구조화하여 개체 간의 참조 일관성을 보장하고 시청각 연관성을 복원하는 데이터 처리 기법입니다.
- Clue-Guided QA Generation: 전체 스크립트에서 다중 세그먼트와 모달리티에 걸친 핵심 단서를 사전에 추출(Global Clue Mining)한 뒤, 이를 바탕으로 QA 쌍을 생성하여 장기적 시간 의존성과 깊은 교차 모달 추론을 유도하는 기법입니다.
- OmniVideo-100K: 본 연구에서 제안한 100K 규모의 시청각 명령 튜닝(Instruction-tuning) 데이터셋으로, 10가지 오디오-비주얼 작업에 대해 고품질 QA 쌍을 제공합니다.
- OmniVideo-Test: 505개의 샘플로 구성된 인적 검증(Human-verified) 테스트 셋으로, 모델의 시청각 추론 능력을 평가하기 위해 사용됩니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존 자동화된 오디오-비주얼 QA 파이프라인의 “비디오-캡션-QA” 패러다임이 가진 근본적인 한계를 해결하고자 합니다 [Figure 1]. 기존 연구들은 비디오를 독립적인 짧은 클립으로 분할하여 처리함으로써 시청각 모달리티 간의 결합을 파괴하고 개체 기술의 불일치를 초래합니다. 또한, 긴 텍스트 이해와 QA 합성을 단일 단계로 결합함에 따라 장기적인 시간적 연결성이나 깊이 있는 교차 모달 추론이 결여된 QA 쌍을 생성하는 문제를 겪습니다. 저자들은 이러한 정보 파편화와 모달리티 비대칭 문제를 해결할 새로운 데이터 엔진이 필요하다고 지적합니다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 연구는 Entity-Anchored Video Scripting을 통해 비디오를 구조화된 스크립트로 변환하고, 이후 Clue-Guided QA Generation을 통해 추론 중심의 QA 쌍을 생성하는 자동화된 데이터 엔진을 제안합니다 [Figure 1]. 저자들은 이 파이프라인을 통해 구축된 OmniVideo-100K를 활용하여 VITA-1.5, Qwen2.5-Omni-7B, Qwen3-Omni-30B 모델을 파인튜닝하였습니다. 실험 결과, OmniVideo-Test 데이터셋에서 모델별로 최대 20.59%의 성능 향상을 기록하였으며, Daily-Omni 및 JointAVBench 등 기존 벤치마크에서도 최대 12.64%의 향상을 달성하며 강력한 일반화 성능을 입증하였습니다 [Figure 3]. 특히, 시청각 단서 기반의 추론 능력에서 baseline 대비 유의미한 정량적 성능 우위를 보였으며, 이는 모델이 단일 모달리티에 대한 의존에서 벗어나 교차 모달 시너지를 창출하고 있음을 시사합니다.
4. Conclusion & Impact (결론 및 시사점)
본 논문은 구조화된 스크립트와 증거 체인을 활용한 시청각 추론 데이터셋 OmniVideo-100K를 제안함으로써, MLLM의 오디오-비주얼 이해 능력을 비약적으로 향상시켰습니다. 제안된 자동화 파이프라인은 개체 일관성 보존과 장기적 추론 단서 확보라는 핵심적인 기술적 진보를 보여주었습니다. 이 연구는 향후 더 정교한 오디오-비주얼 대화형 AI 모델을 구축하기 위한 데이터 효율성 및 추론 품질 개선 측면에서 중요한 학술적 토대를 제공합니다. 또한, 생성된 스크립트 자체가 비디오 편집 등 다양한 응용 분야에서 재사용 가능한 자산이 될 수 있다는 점에서 산업계로의 확장성도 매우 높습니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning
- [논문리뷰] LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning
- [논문리뷰] ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue
- [논문리뷰] ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning
- [논문리뷰] Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning
Review 의 다른글
- 이전글 [논문리뷰] OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data
- 현재글 : [논문리뷰] OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains
- 다음글 [논문리뷰] Orchestra-o1: Omnimodal Agent Orchestration
댓글