[논문리뷰] Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding본 논문은 입력 텍스트 질의를 기반으로 비디오 내에서 대상의 시공간 튜브(spatio-temporal tube)를 찾아내는 시공간 비디오 그라운딩(STVG) 태스크에서, MLLM(Multimodal Large Language Models) 의 잠재력을 활용하여 제로샷(zero-shot) 해결책 을 제시하는 것을 목표로 합니다.#Review#Spatio-Temporal Video Grounding#Multimodal Large Language Models#Zero-Shot Learning#Visual Grounding#Decomposed Spatio-Temporal Highlighting#Logit-Guided Re-attention#Temporal-Augmented Assembling2025년 9월 19일댓글 수 로딩 중