[논문리뷰] Bridging VideoQA and Video-Guided Agentic Tasks via Generalized Keyframe Extraction본 논문은 현대의 MLLM(Multimodal Large Language Models)이 VideoQA와 같은 피상적인 시각적 단서 인식에는 뛰어나지만, 영상 튜토리얼로부터 깊은 절차적 지식을 습득하고 이를 복잡한 하위 작업에 일반화하는 능력은 부족하다는 점을 문제로 제기합니다 .#Review#VideoQA#Video-Guided Agent#Keyframe Extraction#In-Context Learning#GUI Agents#Procedural Knowledge#Temporal Reasoning2026년 6월 29일댓글 수 로딩 중