[논문리뷰] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning본 논문은 최신 Multimodal Large Language Models (MLLMs) 이 기본적인 Visual Question Answering (VQA) 에는 뛰어나지만, 이미지 내에 내재된 미묘한 문화적, 감정적, 상황적 함의(특히 이미지 은유 )를 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Image Metaphor Understanding#Visual Reasoning#Reinforcement Learning#MLLMs#TFQ-GRPO#End-to-End Learning#Cognitive AI2026년 2월 12일댓글 수 로딩 중
[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing본 논문은 기존 이미지 편집 벤치마크가 인지 및 창의성 기반 이미지 편집 모델의 고급 능력을 평가하는 데 한계가 있음을 지적합니다.#Review#Image Editing#Benchmarking#Cognitive AI#Creativity#Multimodal AI#Knowledge-based Reasoning#Diffusion Models#MLLMs2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Has GPT-5 Achieved Spatial Intelligence? An Empirical Study이 연구는 최신 MLLM(Multi-modal Large Language Model) , 특히 GPT-5 가 인공 일반 지능(AGI)의 핵심 역량인 공간 이해 및 추론 능력을 얼마나 달성했는지 실증적으로 평가하는 것을 목표로 합니다.#Review#Spatial Intelligence#Multimodal LLMs#Benchmark Evaluation#GPT-5#Cognitive AI#AGI2025년 8월 19일댓글 수 로딩 중