#Perceptual Bottleneck

1개의 포스트

[논문리뷰] GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 기하학적 추론과 같은 시각 집중 태스크에서 자주 발생하는 환각 현상 과 부정확한 추론 문제를 해결하고자 합니다. 이러한 문제의 근본 원인인 MLLM의 시각적 인지 병목 현상 을 정량화하고, 이를 극복하여 추론 훈련의 효과를 극대화하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Geometric Reasoning #Visual Perception #Reinforcement Learning (RL)#Two-stage Training #GeoPQA Benchmark #Perceptual Bottleneck

2025년 9월 23일