#Video-Guided Agent

1개의 포스트

[논문리뷰] Bridging VideoQA and Video-Guided Agentic Tasks via Generalized Keyframe Extraction

본 논문은 현대의 MLLM(Multimodal Large Language Models)이 VideoQA와 같은 피상적인 시각적 단서 인식에는 뛰어나지만, 영상 튜토리얼로부터 깊은 절차적 지식을 습득하고 이를 복잡한 하위 작업에 일반화하는 능력은 부족하다는 점을 문제로 제기합니다 .

#Review #VideoQA #Video-Guided Agent #Keyframe Extraction #In-Context Learning #GUI Agents #Procedural Knowledge #Temporal Reasoning

2026년 6월 29일