#Visuospatial Reasoning

1개의 포스트

[논문리뷰] Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

본 논문은 최신 <strong>Multimodal Large Language Models (MLLMs)</strong>가 객체 인식이나 장면 묘사와 같은 표면적 시각 인지에서는 뛰어난 성과를 보이나, 인간의 핵심 인지 능력인 visuo-cognitive 및 visuospatial reasoning 역량은 여전히 부족하다는 문제의식에서 출발합니다.

#Review #Multimodal LLMs #Visuospatial Reasoning #Fluid Intelligence #Mental Transformation #ART Taxonomy #Cognitive Benchmark

2026년 4월 21일