#Visual Imagery

1개의 포스트

[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language Model

본 논문은 추상적인 시각 정보와 시각적 기억을 요구하는 복잡한 인지 문제에서 멀티모달 대규모 언어 모델(MLLMs) 의 제한된 성능을 개선하는 것을 목표로 합니다. 인간의 시각 공간 스케치패드와 시각적 심상과 유사한 시각적 추론 메커니즘을 MLLM 에 부여하여 인지 능력 격차를 해소하고자 합니다.

#Review #Multimodal Large Language Models #Cognitive Reasoning #Visual Imagery #Latent Representations #Reinforcement Learning #Visual Question Answering #Benchmark

2026년 2월 2일