[논문리뷰] ViMU: Benchmarking Video Metaphorical Understanding

2026년 5월 14일수정: 2026년 5월 14일

링크: 논문 PDF로 바로 열기

저자: Qi Li, Xinchao Wang

1. Key Terms & Definitions (핵심 용어 및 정의)

Subtext: 영상의 표면적인 시각적 내용 이면에 숨겨진 창작자의 의도, 감정, 사회적 의미를 지칭함.
Rhetoric Mechanisms: 영상이 내포된 의미를 전달하기 위해 사용하는 표현 기법(예: Sarcasm, Irony, Parody, Absurdism 등).
Social Value Signals: 영상이 반영하는 사회적 태도나 규범적 가치(예: Contempt, Norm Violation, Political or Identity Signal 등).
Hint-free: 평가 과정에서 모델에게 특정 함축적 의미를 사전에 알려주지 않고, 스스로 의미를 추론하도록 하는 데이터셋 설계 방식.
Evidence Grounding: 모델이 도출한 해석의 근거가 되는 시각적 프레임, 오디오, 텍스트 등 멀티모달 증거를 정확히 식별하는 능력.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대의 영상 이해 모델들이 표면적인 시각 정보(객체 인식, 행동 분류 등) 인식에는 뛰어나지만, 영상에 내재된 은유적이고 사회적인 의미를 파악하는 능력은 현저히 부족하다는 문제 의식에서 출발한다 [Figure 1]. 기존 연구들은 주로 명시적인 시각적 단서나 단순한 유머 이해에 국한되어 있어, 복잡한 사회적 맥락이나 문화적 배경이 얽힌 비유적 의미를 해석하는 데 한계가 있다. 또한, 다수의 기존 벤치마크는 질문 구성 시 정답에 대한 힌트를 제공하여 모델의 실질적인 추론 능력을 왜곡할 위험이 있다. 이에 저자들은 영상의 은유적, 사회적 하위 텍스트를 체계적으로 평가하기 위한 최초의 벤치마크인 ViMU를 제안한다.

Figure 1: 표면 내용과 내재된 의미의 큰 간극

Figure 1 — 표면 내용과 내재된 의미의 큰 간극

3. Method & Key Results (제안 방법론 및 핵심 결과)

ViMU는 588개의 영상과 2,352개의 문항으로 구성된 고품질 데이터셋으로, 4가지 핵심 평가 태스크(Open-ended interpretation, Rhetoric mechanisms identification, Social value signals identification, Evidence grounding)를 포함한다 [Figure 4, 5]. 데이터셋 구축은 Frontier 모델과 인간 전문가의 반복적인 피드백 루프를 통해 'Hint-free' 환경을 엄격히 유지하며, 다양한 Rhetoric mechanisms 및 Social value signals를 포괄하도록 설계되었다 [Figure 2, 3, 11]. 실험 결과, 최신 MLLM 모델들조차 ViMU의 전반적인 수행 성능이 50% 미만으로 나타나, 영상의 은유적 의미 해석이 기술적으로 매우 어려운 과제임을 입증했다 [Table 1]. 특히, 범용적인 영상 이해 태스크에서 우수한 성능을 보이는 모델이 반드시 ViMU에서 높은 성능을 기록하는 것은 아니라는 점을 통해, 기존 모델들이 표면적 이해와 깊이 있는 하위 텍스트 추론 사이의 단절을 보이고 있음을 확인했다 [Figure 6, 8].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 영상 이해 모델이 단순한 시각적 인식을 넘어 창작자의 의도와 사회적 함의를 이해하는 '인간 수준의 해석'으로 나아가야 함을 강조한다. ViMU를 통해 밝혀진 모델들의 한계점과 체계적인 행동 패턴은 향후 MLLM의 비유적 이해 능력을 향상시키는 데 중요한 이정표가 될 것이다. 또한, 이 연구는 영상 콘텐츠 모니터링, 사회적 안전성 검토, 인간-AI 상호작용 등 실용적인 영역에서 모델의 신뢰성과 판단력을 제고하는 데 기여할 것으로 기대된다.

Figure 4: ViMU의 3가지 멀티초이스 태스크 예시

Figure 4 — ViMU의 3가지 멀티초이스 태스크 예시

Figure 5: ViMU의 오픈엔드 해석 태스크 예시

Figure 5 — ViMU의 오픈엔드 해석 태스크 예시

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction
현재글 : [논문리뷰] ViMU: Benchmarking Video Metaphorical Understanding
다음글 [논문리뷰] Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video