[논문리뷰] MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism본 논문은 기존 Vision-Language Models(VLMs)가 긴 영상을 처리할 때 발생하는 토큰 폭발과 주의력 희석(Attention Dilution) 문제를 해결하고자 합니다.#Review#Long Video Understanding#Hierarchical Graph Memory#Agentic Retrieval#Vision-Language Models#Decoupled Perception and Reasoning2026년 6월 9일댓글 수 로딩 중
[논문리뷰] Small Vision-Language Models are Smart Compressors for Long Video Understanding저자들은 SVLM을 로컬 압축기로 활용하여 긴 비디오를 쿼리 의존적인 메모리 토큰으로 변환하는 Tempo 프레임워크를 제안합니다 . Tempo는 각 세그먼트에서 쿼리와 시각적 정보를 결합한 교차 모달 증류(cross-modal distillation)를 수행하며, ATA 기법을 통해 추론 시점의 토큰 예산(예: 4K/8K)을 엄격히 준수합니다.#Review#Multimodal Large Language Models#Long Video Understanding#Visual Token Compression#Adaptive Token Allocation#Cross-modal Distillation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding긴 비디오 이해(Long Video Understanding)는 MLLM의 제한된 Context Window 때문에 여전히 어려운 과제이며, 이는 쿼리 관련성이 높은 희소한 비디오 세그먼트를 식별해야 할 필요성을 야기합니다.#Review#Long Video Understanding#Multimodal Large Language Models#Video Question Answering#Graph Neural Networks#Active Inference#Belief Propagation#Spatio-Temporal Graph2026년 3월 23일댓글 수 로딩 중
[논문리뷰] LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding본 논문은 낮은 컴퓨팅 예산 으로 장시간 비디오를 효율적으로 이해하는 과제를 해결하는 것을 목표로 합니다.#Review#Long Video Understanding#MLLM Agent#Active Learning#Reinforcement Learning#Chain-of-Thought#Video Navigation#Computational Efficiency2026년 3월 1일댓글 수 로딩 중
[논문리뷰] LongVideoAgent: Multi-Agent Reasoning with Long Videos본 논문은 기존 MLLM(Multimodal Large Language Models)이 긴 길이의 비디오에서 발생하는 정보 압축 손실, 제한된 도구 세트, 그리고 미세한 시간적 추론 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent System#Long Video Understanding#Video Question Answering#Reinforcement Learning#Large Language Models#Temporal Grounding#Multimodal Reasoning#Tool-Augmented AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] LongVT: Incentivizing 'Thinking with Long Videos' via Native Tool Calling논문은 대규모 멀티모달 모델(LMMs)이 장시간 비디오(hours-long)에서 증거가 희박하고 시간적으로 분산된 정보를 처리할 때 발생하는 환각 현상과 부정확한 추론 문제를 해결하고자 합니다.#Review#Long Video Understanding#Multimodal LLMs#Tool Calling#Reinforcement Learning#Chain-of-Thought#Temporal Grounding#Video Question Answering2025년 12월 1일댓글 수 로딩 중
[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding본 논문은 기존 MLLM이 긴 비디오 컨텍스트 처리 시 효율성과 효과성 사이의 균형을 맞추기 어려운 문제를 해결하고자 합니다.#Review#Long Video Understanding#Hybrid Mamba-Transformer#Vision-Language Model#Token Compression#Vision-to-Text Aggregation#Efficient LLM#Multimodal AI2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding본 논문은 장시간 비디오 이해의 난제를 해결하고자 합니다.#Review#Long Video Understanding#Reinforcement Learning#Multi-Turn Reasoning#MLLMs#Video Segment Selection#Bi-level Reward#Question Answering2025년 9월 5일댓글 수 로딩 중
[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video UnderstandingVideo MLLM(Multimodal Large Language Models)이 긴 비디오에서 보이는 Semantic Aggregation Hallucination (SAH) 문제를 해결하는 데 목표를 둡니다.#Review#Long Video Understanding#Hallucination#Semantic Aggregation#Video MLLM#Benchmark#DPO#Positional Encoding#VideoQA2025년 9월 3일댓글 수 로딩 중
[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding본 논문은 기존 Video-LLM의 한계인 불명확한 시간 인코딩, 프레임 수준의 낮은 연속성, 그리고 관심 엔티티에 대한 언어-비전 정렬 불일치를 극복하는 것을 목표로 합니다. 특히 긴 비디오에서 발생하는 이벤트의 정밀한 시간적 위치 파악과 엔티티 수준의 견고한 정렬을 통해 비디오 이해 능력을 향상시키고자 합니다.#Review#Video-LLM#Diffusion Model#Temporal Grounding#Object Segmentation#Long Video Understanding#Multimodal AI#Video Question Answering2025년 8월 22일댓글 수 로딩 중