[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.#Review#Video Reasoning#Reinforcement Learning#Multi-Turn Reasoning#Agent System#Long Videos#Synthetic Data#Any-Horizon Reasoning#Large Language Models2025년 12월 17일댓글 수 로딩 중
[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction본 연구는 기존 비디오 벤치마크들이 장거리 이동 및 다일(multi-day) 활동과 같은 거시적 규모의 지리 공간-시간적 시나리오 를 충분히 다루지 못한다는 한계를 지적하며, MLLM(Multimodal Large Language Models)의 확장된 지리 공간 및 시간적 이해 능력 을 평가하는 새로운 벤치마크 VIR-Bench를 제시합니다.#Review#Multimodal LLMs#Video Understanding#Geospatial Reasoning#Temporal Reasoning#Travel Itinerary Reconstruction#Benchmark#Agent System#VLOG2025년 9월 24일댓글 수 로딩 중