#Fine-grained Perception

3개의 포스트

[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.

#Review #Vision-Language Models #Benchmarking #Visual Measurement Reading #Synthetic Data Generation #Fine-grained Perception #Spatial Grounding #Reinforcement Learning

2025년 11월 9일

[논문리뷰] ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

본 연구의 목표는 실제 과학 실험 영상, 특히 습식 실험 환경에서의 복잡한 절차를 MLLM이 얼마나 잘 이해하는지 체계적으로 평가할 수 있는 벤치마크를 제시하는 것입니다. 기존 벤치마크들이 미세한(fine-grained) 디테일과 장기적인(long-horizon) 실험 과정을 간과하는 한계를 극복하고자 합니다.

#Review #Experiment Video Understanding #Multimodal Large Language Models (MLLMs)#Scientific Reasoning #Benchmark #Wet-Lab Experiments #Procedural Understanding #Fine-grained Perception #Video QA

2025년 10월 15일

[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Object Grounding #Fine-grained Perception #Hybrid Region Encoder #Plug-and-play #Two-stage Training #Visual Reasoning

2025년 10월 2일