[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.#Review#Video Captioning#Multi-Scene Videos#Time-Aware#Structural Captions#Audio-Visual Understanding#Large Language Models#Reinforcement Learning#OmniDCBench2026년 2월 11일댓글 수 로딩 중