#Multi-Scene Videos

1개의 포스트

[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.

#Review #Video Captioning #Multi-Scene Videos #Time-Aware #Structural Captions #Audio-Visual Understanding #Large Language Models #Reinforcement Learning #OmniDCBench

2026년 2월 11일