[논문리뷰] Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task본 논문은 기존 MLLM(Multimodal Large Language Models) 이 복잡한 VideoQA(Video Question Answering) 태스크에서 시공간적 관계 모델링 및 시간적 진화의 인과적 역학을 이해하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#VideoQA#MLLMs#Tool Learning#Spatiotemporal Reasoning#Video Toolkit#Agentic AI2025년 12월 11일댓글 수 로딩 중
[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video UnderstandingVideo MLLM(Multimodal Large Language Models)이 긴 비디오에서 보이는 Semantic Aggregation Hallucination (SAH) 문제를 해결하는 데 목표를 둡니다.#Review#Long Video Understanding#Hallucination#Semantic Aggregation#Video MLLM#Benchmark#DPO#Positional Encoding#VideoQA2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs본 논문은 Video Large Language Models ( VideoLLMs )가 비디오-텍스트 정보(spatiotemporal inputs)를 어떻게 내부적으로 추출하고 전파하여 비디오 질의응답 (VideoQA) 태스크에서 Temporal Reasoning을 수행하는지 그 메커니즘을 밝히는 것을 목표로 합니다.#Review#Video Large Language Models#VideoQA#Mechanistic Interpretability#Attention Knockout#Temporal Reasoning#Information Flow#Model Interpretability#Logit Lens2025년 10월 27일댓글 수 로딩 중