[논문리뷰] HiMu: Hierarchical Multimodal Frame Selection for Long Video Question AnsweringLong-form video question answering (VideoQA)은 확장된 시간적 맥락에 대한 추론을 요구하지만, 현재 <strong>Large Vision-Language Models (LVLMs)</strong>의 finite context windows는 전체 비디오를 원시 프레임 속도로 처리하는 것을 불가능하게 만든다.#Review#Video Question Answering#Frame Selection#Neuro-Symbolic Reasoning#Multimodal Understanding#Long Video2026년 3월 22일댓글 수 로딩 중