[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.#Review#Vision-Language Models#Benchmarking#Visual Measurement Reading#Synthetic Data Generation#Fine-grained Perception#Spatial Grounding#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ExpVid: A Benchmark for Experiment Video Understanding & Reasoning본 연구의 목표는 실제 과학 실험 영상, 특히 습식 실험 환경에서의 복잡한 절차를 MLLM이 얼마나 잘 이해하는지 체계적으로 평가할 수 있는 벤치마크를 제시하는 것입니다. 기존 벤치마크들이 미세한(fine-grained) 디테일과 장기적인(long-horizon) 실험 과정을 간과하는 한계를 극복하고자 합니다.#Review#Experiment Video Understanding#Multimodal Large Language Models (MLLMs)#Scientific Reasoning#Benchmark#Wet-Lab Experiments#Procedural Understanding#Fine-grained Perception#Video QA2025년 10월 15일댓글 수 로딩 중
[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.#Review#Vision-Language Models#Object Grounding#Fine-grained Perception#Hybrid Region Encoder#Plug-and-play#Two-stage Training#Visual Reasoning2025년 10월 2일댓글 수 로딩 중