[논문리뷰] Towards One-to-Many Temporal Grounding

2026년 6월 4일수정: 2026년 6월 4일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Qi Xu, Yue Tan, Shihao Chen, Jiahao Meng, Anna Wang, Shunping Ji, Hao Fei, Jason Li

1. Key Terms & Definitions (핵심 용어 및 정의)

OMTG (One-to-Many Temporal Grounding): 단일 텍스트 쿼리에 대해 비디오 내에서 반복적으로 발생하는 모든 disjoint한 시간 구간들을 식별하는 과제입니다.
EtF1 (Effective Temporal F1-Score): 이벤트 발생 횟수(Cardinality)의 정확성과 시간적 경계의 정밀도를 동시에 평가하기 위해 제안된 핵심 지표로, 개수 불일치 시 0점을 부여합니다.
C-Acc (Count Accuracy): 모델이 Ground-truth와 동일한 개수의 이벤트 발생 구간을 예측했는지 측정하는 정량적 지표입니다.
GRPO (Group Relative Policy Optimization): 본 논문에서 모델의 보상 함수를 최적화하기 위해 사용된 RL 알고리즘으로, 여러 rollout을 통해 정책을 정교화합니다.
tIoU (Temporal Intersection over Union): 예측된 시간 구간과 실제 정답 구간 간의 중첩 정도를 측정하는 전통적인 지표입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 연구는 기존 Temporal Grounding 연구들이 주로 단일 세그먼트 검색(One-to-One)에 치중되어 있어, 실세계의 반복적인 이벤트 구조를 다루지 못한다는 한계를 해결합니다. 기존 MLLM들은 이벤트 Cardinality에 대한 인지가 부족하여 반복되는 액션을 단일 세그먼트로 통합하거나 과도하게 분절하는 오류를 범하며, 이는 tIoU와 같은 전통적 지표가 카운팅 오류를 효과적으로 잡아내지 못하기 때문입니다 [Figure 2]. 따라서 저자들은 복잡한 비디오 내에서 모든 발생 지점을 정확히 찾아내는 OMTG 프레임워크를 제안하며, 이를 위한 새로운 벤치마크와 평가 체계를 구축하고자 합니다.

Figure 2: tIoU 지표의 한계점

Figure 2 — tIoU 지표의 한계점

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 56k 규모의 고품질 OMTG Dataset을 구축하고, SFT(Supervised Fine-Tuning)와 RL(Reinforcement Learning)을 결합한 2단계 학습 파이프라인을 제안합니다 [Figure 3]. 모델은 Chain-of-Thought(CoT)를 통해 dense한 비디오 캡션을 먼저 생성하고, 이를 기반으로 시간적 경계를 추론합니다. 학습 시에는 RtIoU, RC-Acc, RCaption, RLength를 포함하는 복합 보상 함수를 GRPO로 최적화하여 모델의 정밀도와 Completeness를 극대화합니다 [Figure 4]. 실험 결과, 제안 모델은 OMTG Bench에서 EtF1 43.65%를 달성하여 기존 최고 성능의 Gemini 2.5 Pro(27.80%)와 Seed-1.8(28.04%) 대비 압도적인 성능 우위를 보입니다 [Table 1]. 또한, 본 방식은 일반적인 One-to-One Temporal Grounding 성능까지 향상시키는 범용적인 강점을 보여줍니다 [Table 4].

Figure 3: 데이터 구축 파이프라인

Figure 3 — 데이터 구축 파이프라인

Figure 4: 복합 보상 함수 설계

Figure 4 — 복합 보상 함수 설계

4. Conclusion & Impact (결론 및 시사점)

본 논문은 실세계 비디오 이해의 핵심 과제인 OMTG를 정식화하고, 이를 위한 포괄적인 벤치마크와 학습 프레임워크를 성공적으로 제시했습니다. 제안된 EtF1 지표와 복합 보상 기반의 RL 전략은 기존 MLLM들이 가진 이벤트 Cardinality 인지 문제를 효과적으로 해결했습니다. 이 연구는 고도화된 비디오 의미론적 추론 및 정교한 시간적 정렬이 필요한 영상 분석 서비스(예: 스포츠 하이라이트 자동 추출, 복잡한 작업 절차 분석) 분야에 중요한 학술적·기술적 토대를 마련한 것으로 평가됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models
현재글 : [논문리뷰] Towards One-to-Many Temporal Grounding
다음글 [논문리뷰] Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs