#Cognitive AI

3개의 포스트

[논문리뷰] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

본 논문은 최신 Multimodal Large Language Models (MLLMs) 이 기본적인 Visual Question Answering (VQA) 에는 뛰어나지만, 이미지 내에 내재된 미묘한 문화적, 감정적, 상황적 함의(특히 이미지 은유 )를 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Metaphor Understanding #Visual Reasoning #Reinforcement Learning #MLLMs #TFQ-GRPO #End-to-End Learning #Cognitive AI

2026년 2월 12일

[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing

본 논문은 기존 이미지 편집 벤치마크가 인지 및 창의성 기반 이미지 편집 모델의 고급 능력을 평가하는 데 한계가 있음을 지적합니다.

#Review #Image Editing #Benchmarking #Cognitive AI #Creativity #Multimodal AI #Knowledge-based Reasoning #Diffusion Models #MLLMs

2025년 12월 1일

[논문리뷰] Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

이 연구는 최신 MLLM(Multi-modal Large Language Model) , 특히 GPT-5 가 인공 일반 지능(AGI)의 핵심 역량인 공간 이해 및 추론 능력을 얼마나 달성했는지 실증적으로 평가하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal LLMs #Benchmark Evaluation #GPT-5 #Cognitive AI #AGI

2025년 8월 19일