[논문리뷰] VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding긴 비디오 이해(Long Video Understanding)는 MLLM의 제한된 Context Window 때문에 여전히 어려운 과제이며, 이는 쿼리 관련성이 높은 희소한 비디오 세그먼트를 식별해야 할 필요성을 야기합니다.#Review#Long Video Understanding#Multimodal Large Language Models#Video Question Answering#Graph Neural Networks#Active Inference#Belief Propagation#Spatio-Temporal Graph2026년 3월 23일댓글 수 로딩 중
[논문리뷰] HiMu: Hierarchical Multimodal Frame Selection for Long Video Question AnsweringLong-form video question answering (VideoQA)은 확장된 시간적 맥락에 대한 추론을 요구하지만, 현재 <strong>Large Vision-Language Models (LVLMs)</strong>의 finite context windows는 전체 비디오를 원시 프레임 속도로 처리하는 것을 불가능하게 만든다.#Review#Video Question Answering#Frame Selection#Neuro-Symbolic Reasoning#Multimodal Understanding#Long Video2026년 3월 22일댓글 수 로딩 중
[논문리뷰] MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents본 논문은 여러 embodied AI 에이전트 로부터 동시에 수집된 다중의 장기 에고센트릭 비디오 를 이해하고 추론하는 새로운 문제를 해결하는 것을 목표로 합니다.#Review#Egocentric Vision#Multi-Agent Systems#Video Question Answering#Long-Horizon Reasoning#Embodied AI#Benchmark Dataset#Shared Memory#Dynamic Retrieval2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Agentic Very Long Video Understanding본 논문은 항상 켜져 있는 개인 AI 비서가 요구하는 매우 긴 비디오 이해의 과제를 해결하는 것을 목표로 합니다.#Review#Long-Horizon Video Understanding#Agentic AI#Entity Graph#Multimodal Reasoning#Video Question Answering#EgoLifeQA#Retrieval Augmented Generation2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning본 논문은 기존 비디오 질의응답 벤치마크의 한계, 즉 폐쇄된 증거 설정과 텍스트 기반 검색에 의존하는 문제점을 해결하고자 합니다.#Review#Video Question Answering#Open-domain Search#Multimodal LLMs#Agentic AI#Benchmark#Video Understanding#Multi-hop Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Streaming Video Instruction Tuning이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.#Review#Streaming Video Understanding#Large Language Models (LLMs)#Instruction Tuning#Multi-task Learning#Real-time AI Assistant#Temporal Reasoning#Focal Loss#Video Question Answering2025년 12월 24일댓글 수 로딩 중
[논문리뷰] LongVideoAgent: Multi-Agent Reasoning with Long Videos본 논문은 기존 MLLM(Multimodal Large Language Models)이 긴 길이의 비디오에서 발생하는 정보 압축 손실, 제한된 도구 세트, 그리고 미세한 시간적 추론 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent System#Long Video Understanding#Video Question Answering#Reinforcement Learning#Large Language Models#Temporal Grounding#Multimodal Reasoning#Tool-Augmented AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering기존 VideoQA 벤치마크가 단일 단서나 언어 사전 지식에 의존하는 경향이 있어 다중 증거 통합 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.#Review#Video Question Answering#Multi-evidence Integration#Video-LLMs#Benchmark#Temporal Reasoning#Frame Selection#Evidential Requirement#MRFS2025년 12월 21일댓글 수 로딩 중
[논문리뷰] 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation본 논문은 기존 MLLM이 3D 구조와 시간적 역학(4D)을 추론하는 능력이 부족하며, 특히 4D 인지 및 시간적 이해 가 약하다는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#4D Understanding#Perceptual Distillation#Region-level VQA#Video Question Answering#Temporal Perception#Depth Perception2025년 12월 21일댓글 수 로딩 중
[논문리뷰] LongVT: Incentivizing 'Thinking with Long Videos' via Native Tool Calling논문은 대규모 멀티모달 모델(LMMs)이 장시간 비디오(hours-long)에서 증거가 희박하고 시간적으로 분산된 정보를 처리할 때 발생하는 환각 현상과 부정확한 추론 문제를 해결하고자 합니다.#Review#Long Video Understanding#Multimodal LLMs#Tool Calling#Reinforcement Learning#Chain-of-Thought#Temporal Grounding#Video Question Answering2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination본 논문은 텍스트가 풍부한 비디오에서 미세한 증거를 기반으로 하는 추론 문제, 특히 기존 단일 패스(single-pass) 비디오 QA 모델의 환각 및 오류 문제 를 해결하고자 합니다.#Review#Video Reasoning#Large Multimodal Models#Reinforcement Learning#Visual Rumination#Text-Rich Video#Video Question Answering#Iterative Perception2025년 11월 23일댓글 수 로딩 중
[논문리뷰] REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding본 논문은 기존 텍스트 기반 자기 성찰(self-reflection) 메커니즘 이 풍부하고 동적인 시각 정보를 처리하는 데 한계가 있어, 장문 비디오 이해(long-form video understanding) 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다.#Review#Multimodal Reasoning#Long-Form Video Understanding#Self-Reflection#Reinforcement Learning#Tool-Augmented MLLMs#Visual Rethinking#Video Question Answering#Causal Attribution2025년 11월 18일댓글 수 로딩 중
[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding본 논문은 기존 Video-LLM의 한계인 불명확한 시간 인코딩, 프레임 수준의 낮은 연속성, 그리고 관심 엔티티에 대한 언어-비전 정렬 불일치를 극복하는 것을 목표로 합니다. 특히 긴 비디오에서 발생하는 이벤트의 정밀한 시간적 위치 파악과 엔티티 수준의 견고한 정렬을 통해 비디오 이해 능력을 향상시키고자 합니다.#Review#Video-LLM#Diffusion Model#Temporal Grounding#Object Segmentation#Long Video Understanding#Multimodal AI#Video Question Answering2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory본 논문은 실시간 멀티모달 입력(시각, 청각)을 지속적으로 처리하여 장기 기억을 구축하고 업데이트하며, 이를 기반으로 추론하여 복잡한 지시를 완료할 수 있는 멀티모달 에이전트 프레임워크 M3-Agent 를 제안합니다. 기존 모델의 한계인 무한한 정보 처리 및 일관된 세계 지식 구축 문제를 해결하고자 합니다.#Review#Multimodal Agent#Long-Term Memory#Episodic Memory#Semantic Memory#Reinforcement Learning#Video Question Answering#Entity-Centric Memory2025년 8월 14일댓글 수 로딩 중