[논문리뷰] Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs본 논문은 최신 <strong>Multimodal Large Language Models (MLLMs)</strong>가 객체 인식이나 장면 묘사와 같은 표면적 시각 인지에서는 뛰어난 성과를 보이나, 인간의 핵심 인지 능력인 visuo-cognitive 및 visuospatial reasoning 역량은 여전히 부족하다는 문제의식에서 출발합니다.#Review#Multimodal LLMs#Visuospatial Reasoning#Fluid Intelligence#Mental Transformation#ART Taxonomy#Cognitive Benchmark2026년 4월 21일댓글 수 로딩 중