[논문리뷰] VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

2026년 4월 2일수정: 2026년 4월 2일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Jiahao Meng, Yue Tan, Qi Xu, Haochen Wang, Zhongwei Ren, Weisong Liu, Yuhao Wang, Renrui Zhang, Haodong Duan, Yunhai Tong et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

VideoZeroBench : 장시간 비디오 내에서 시공간적 증거(Spatio-temporal evidence)를 정밀하게 검증하기 위해 설계된 계층적 벤치마크.
Spatio-Temporal Grounding : 모델이 생성한 답변이 비디오의 특정 시점(Temporal interval)과 특정 공간적 영역(Spatial bounding box)에 명확히 근거하는지 확인하는 프로세스.
Atomic Ability : counting, small-object perception, spatial orientation, multi-segment causal dependency 등 모델의 비디오 이해 역량을 세분화하여 측정하는 11가지 핵심 기능.
Five-Level Evaluation Protocol : 답변의 정확성뿐만 아니라 증거의 유무 및 정밀도에 따라 난이도를 5단계로 구분한 평가 프레임워크.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현재의 Video MLLM 평가 방식이 답변의 정성적 정확도에만 치중하여 실제적인 시공간적 추론 역량을 제대로 측정하지 못한다는 문제를 지적한다. 기존 벤치마크들은 고득점을 기록하지만, 모델이 정답을 도출하기 위해 필요한 핵심적인 시각적 증거를 정확하게 탐색하고 활용하는지 검증하지 못한다 [Figure 1]. 이러한 불투명성은 모델의 환각(Hallucination)을 마스킹할 위험이 있으며, 특히 복잡한 장시간 비디오에서 세밀한 시공간적 이해가 부족한 모델의 한계를 드러내지 못하는 한계를 가진다. 따라서 본 연구는 모델이 답변의 근거를 명확한 시공간적 증거로 입증해야 하는 도전적인 환경을 구축하고자 한다.

Figure 1: 계층적 평가 프로토콜

Figure 1 — 계층적 평가 프로토콜

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 500개의 수동 주석된 질문으로 구성된 VideoZeroBench 를 제안하며, 답변과 시공간적 증거 검증을 분리 및 통합하는 5단계 계층적 평가 프로토콜을 도입한다 [Figure 2]. 제안된 프로토콜은 Level-1(답변+증거 제공)부터 Level-5(답변+정확한 시공간적 Localization 요구)까지 난이도를 순차적으로 높여 모델의 진정한 이해도를 진단한다 [Figure 1]. 실험 결과, 최신 모델인 Gemini-3-Pro 조차 표준 end-to-end QA 설정(Level-3)에서 17%의 낮은 정확도를 보였으며, 시공간적 Grounding이 필수적인 Level-5에서는 1% 미만의 정확도를 기록했다. 이는 대다수 모델이 정답을 맞추더라도 이를 뒷받침하는 시공간적 근거를 식별하지 못함을 시사한다 [Table 2]. 추가 분석을 통해 소형 객체 인식(Small-object perception) 및 세밀한 시공간적 검색 능력이 현재 모델들의 가장 큰 성능 병목임을 확인하였다 [Figure 3].

Figure 2: 데이터 구축 및 통계

Figure 2 — 데이터 구축 및 통계

Figure 3: 핵심 능력별 성능 비교

Figure 3 — 핵심 능력별 성능 비교

4. Conclusion & Impact (결론 및 시사점)

본 논문은 Video MLLM의 평가 패러다임을 정답 정확도에서 근거 기반의 시공간적 추론 검증으로 전환할 것을 촉구한다. 연구 결과, 현재의 선도적 모델들도 복잡한 환경에서의 정밀한 시공간적 인식과 통합적인 추론에는 여전히 취약함을 입증하였다. 본 벤치마크는 차세대 비디오 지능 모델이 더 신뢰할 수 있고 해석 가능한 방식으로 발전하는 데 필요한 엄격한 평가 잣대를 제공할 것으로 기대된다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] VOID: Video Object and Interaction Deletion
현재글 : [논문리뷰] VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification
다음글 [논문리뷰] Woosh: A Sound Effects Foundation Model