#Geospatial Reasoning

2개의 포스트

[논문리뷰] TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Earth Observation (EO) 분야에서 Vision-Language Models (VLMs)의 가능성에도 불구하고, 기존 VLM들은 픽셀 수준의 정밀한 공간 추론 과 다중 센서 및 시간 경과 데이터 통합 에 어려움을 겪고 있습니다.

#Review #Vision-Language Models (VLMs)#Earth Observation (EO)#Pixel-Grounded Reasoning #Chain-of-Thought (CoT)#Multi-Modal Reasoning #Multi-Temporal Reasoning #Geospatial Reasoning

2026년 3월 22일

[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

본 연구는 기존 비디오 벤치마크들이 장거리 이동 및 다일(multi-day) 활동과 같은 거시적 규모의 지리 공간-시간적 시나리오 를 충분히 다루지 못한다는 한계를 지적하며, MLLM(Multimodal Large Language Models)의 확장된 지리 공간 및 시간적 이해 능력 을 평가하는 새로운 벤치마크 VIR-Bench를 제시합니다.

#Review #Multimodal LLMs #Video Understanding #Geospatial Reasoning #Temporal Reasoning #Travel Itinerary Reconstruction #Benchmark #Agent System #VLOG

2025년 9월 24일