[논문리뷰] Factorized Learning for Temporally Grounded Video-Language Models기존 비디오-언어 모델(VLLMs)이 이벤트 수준의 정확한 temporal grounding 과 텍스트 응답 생성에서 겪는 한계를 해결하는 것을 목표로 합니다.#Review#Video-Language Models#Temporal Grounding#Factorized Learning#Preference Optimization#Evidence Referencing#Video Understanding#Dense Captioning2025년 12월 31일댓글 수 로딩 중