[논문리뷰] TerraScope: Pixel-Grounded Visual Reasoning for Earth ObservationEarth Observation (EO) 분야에서 Vision-Language Models (VLMs)의 가능성에도 불구하고, 기존 VLM들은 픽셀 수준의 정밀한 공간 추론 과 다중 센서 및 시간 경과 데이터 통합 에 어려움을 겪고 있습니다.#Review#Vision-Language Models (VLMs)#Earth Observation (EO)#Pixel-Grounded Reasoning#Chain-of-Thought (CoT)#Multi-Modal Reasoning#Multi-Temporal Reasoning#Geospatial Reasoning2026년 3월 22일댓글 수 로딩 중
[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction본 연구는 기존 비디오 벤치마크들이 장거리 이동 및 다일(multi-day) 활동과 같은 거시적 규모의 지리 공간-시간적 시나리오 를 충분히 다루지 못한다는 한계를 지적하며, MLLM(Multimodal Large Language Models)의 확장된 지리 공간 및 시간적 이해 능력 을 평가하는 새로운 벤치마크 VIR-Bench를 제시합니다.#Review#Multimodal LLMs#Video Understanding#Geospatial Reasoning#Temporal Reasoning#Travel Itinerary Reconstruction#Benchmark#Agent System#VLOG2025년 9월 24일댓글 수 로딩 중