#Visual Spatial Reasoning

2개의 포스트

[논문리뷰] Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

저자들은 다양한 규모의 MRM 및 MLM 백본을 대상으로 CoT와 Non-CoT 프롬프트를 비교 평가하는 방법론을 수행하였습니다. 실험 결과, 17개 중 대다수의 모델에서 CoT 프롬프트를 사용했을 때 시각적 공간 추론 정확도가 평균적으로 하락하는 경향이 관찰되었습니다 .

#Review #Multimodal Reasoning Models #Chain-of-Thought #Visual Spatial Reasoning #Shortcut Learning #Hallucination #No-Image Ablation

2026년 4월 21일

[논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

본 논문은 RLVR 기반의 Multimodal Reasoning Models(MRM)이 높은 정답 정확도를 달성함에도 불구하고, 정작 그 과정인 CoT 추론의 신뢰성이 현저히 떨어지는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Constrained Policy Optimization #Chain-of-Thought #Visual Spatial Reasoning #Lagrangian Relaxation #Faithfulness

2026년 4월 9일