본문으로 건너뛰기

#Video Question Answering

14개의 포스트

[논문리뷰] VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

댓글 수 로딩 중

[논문리뷰] HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

댓글 수 로딩 중

[논문리뷰] LongVideoAgent: Multi-Agent Reasoning with Long Videos

댓글 수 로딩 중

[논문리뷰] LongVT: Incentivizing 'Thinking with Long Videos' via Native Tool Calling

댓글 수 로딩 중

[논문리뷰] Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

댓글 수 로딩 중

[논문리뷰] REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

댓글 수 로딩 중

[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding

댓글 수 로딩 중

[논문리뷰] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

댓글 수 로딩 중