#Evaluation Hierarchy

1개의 포스트

[논문리뷰] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

본 논문은 12명의 전문 주석자와 50명의 검토자가 3,300시간을 투입하여 구축한 Video-MME-v2 데이터셋을 통해 모델의 역량을 평가한다. 제안하는 방법론은 비디오 이해 능력을 3단계로 체계화하고, 질문을 그룹화하여 Consistency와 Coherence를 검증하는 그룹 기반 평가 전략을 포함한다.

#Review #Video Understanding #Multimodal Large Language Models #Benchmark #Reasoning Coherence #Capability Consistency #Evaluation Hierarchy #Non-linear Scoring

2026년 4월 7일