#Image Metaphor Understanding

1개의 포스트

[논문리뷰] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

본 논문은 최신 Multimodal Large Language Models (MLLMs) 이 기본적인 Visual Question Answering (VQA) 에는 뛰어나지만, 이미지 내에 내재된 미묘한 문화적, 감정적, 상황적 함의(특히 이미지 은유 )를 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Metaphor Understanding #Visual Reasoning #Reinforcement Learning #MLLMs #TFQ-GRPO #End-to-End Learning #Cognitive AI

2026년 2월 12일