[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

2026년 2월 12일수정: 2026년 2월 12일

링크: 논문 PDF로 바로 열기

저자: Linli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun

핵심 연구 목표

본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다. 연속적인 다중 장면 비디오에 대해 시간 인식(time-aware) 및 구조화된(structural) 오디오-비주얼 캡션을 생성하는 새로운 태스크인 Omni Dense Captioning 을 제안하며, 영화 시나리오처럼 장면별로 비디오 내용을 상세하게 상상할 수 있는 "스크립트 같은" 설명을 제공하는 것을 목표로 합니다.

핵심 방법론

Omni Dense Captioning 태스크를 위해 비디오를 연속적인 장면으로 분할하고, 6가지 차원(시청각 이벤트, 시각적 배경, 카메라 상태, 샷 편집 스타일, 대화 내용, 음향 단서) 에 걸쳐 상세한 설명을 생성합니다. 이를 위한 고품질 벤치마크인 OmniDCBench 와 시간 경계 모호성을 완화하는 통합 평가 지표 SodaM 을 개발했습니다. 모델은 Qwen2.5-Omni 백본을 기반으로 하는 TimeChat-Captioner-7B 이며, 합성 데이터(TimeChatCap-42K)를 활용한 Supervised Fine-Tuning (SFT) 과 Group Relative Policy Optimization (GRPO) 을 통해 학습됩니다.

주요 결과

TimeChat-Captioner 는 OmniDCBench 에서 SodaM 점수 35.0 을 기록하며 Gemini-2.5-Pro(33.7) 를 능가하는 최신 성능을 달성했습니다. 이는 시간 인식 캡셔닝 품질 및 장면 경계 지역화 모두에서 우수함을 입증합니다. 또한, DailyOmni 및 WorldSense 와 같은 다운스트림 오디오-비주얼 추론 태스크와 Charades-STA 와 같은 시간적 근거 태스크에서도 뛰어난 일반화 성능을 보여주며, 특히 2K 샘플의 GRPO 가 20K 또는 40K SFT 데이터보다 효과적임을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 시간 인식 및 구조화된 오디오-비주얼 캡셔닝 이라는 새로운 패러다임을 제시하며, AI 엔지니어들에게 더욱 심층적인 비디오 이해 시스템 개발을 위한 새로운 벤치마크와 방법론을 제공합니다. LLM 기반의 합성 데이터 생성 및 보상 기반 강화 학습(GRPO) 접근 방식은 복잡한 다중 양상 생성 태스크를 위한 고품질 학습 데이터 구축 및 모델 최적화에 효율적인 전략을 제시합니다. 이러한 기술은 비디오 요약, 콘텐츠 제작 자동화, 접근성 향상 등 다양한 AI 애플리케이션에 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models
현재글 : [논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions
다음글 [논문리뷰] Towards Autonomous Mathematics Research