[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation본 연구는 기존 벤치마크에서 MLLM(Multimodal Large Language Models)이 달성한 높은 성능에도 불구하고, 인간과 유사한 시각적 접지(visual grounding) 능력 을 실제 복잡한 시나리오에서 갖추고 있는지 근본적인 질문을 던집니다.#Review#Visual Grounding#MLLMs#Benchmark#Multi-Dimensional Evaluation#Rejection Capability#Test-Time Scaling#Data Mixture Training2025년 12월 21일댓글 수 로딩 중