[논문리뷰] Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

2026년 4월 21일수정: 2026년 4월 21일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Sai Srinivas Kancheti, Aditya Sanjiv Kanade, Vineeth N. Balasubramanian, Tanuja Ganu

1. Key Terms & Definitions (핵심 용어 및 정의)

MRMs (Multimodal Reasoning Models): SFT 및 RL을 통해 단계별 추론(step-by-step reasoning)을 생성하도록 사후 학습된 멀티모달 모델군을 지칭합니다.
CoT (Chain-of-Thought) Prompting: 모델에게 최종 답변 전 추론 과정을 단계별로 먼저 출력하도록 지시하는 기법입니다.
Visual Spatial Reasoning: 이미지 내 객체 간의 위치 관계, 3D 기하학적 구조, 공간적 배치를 파악하고 추론하는 능력을 의미합니다.
No-Image++ Ablation: 입력 이미지를 의미 없는 회색 이미지로 대체한 상태에서, 'Cannot determine' 옵션을 추가하여 모델이 시각적 정보 없이 텍스트 우선순위(textual priors)에 의존하는지 평가하는 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 CoT 기반 추론 방식이 수학 및 논리 도메인에서는 혁신적인 성과를 거두었으나, 시각적 공간 지능(spatial intelligence)에서는 오히려 성능을 저하시킨다는 문제점을 제기합니다. 기존 연구들은 주로 Math-heavy한 벤치마크에 집중하여 vision-centric한 공간 추론 능력을 제대로 평가하지 못했다는 한계가 있습니다. 이에 저자들은 17개의 모델을 13개의 공간 추론 벤치마크에 대해 종합적으로 평가하여 CoT가 시각적 공간 과제에서 성능을 저해하는 현상을 규명하고자 합니다 [Figure 1].

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 다양한 규모의 MRM 및 MLM 백본을 대상으로 CoT와 Non-CoT 프롬프트를 비교 평가하는 방법론을 수행하였습니다. 실험 결과, 17개 중 대다수의 모델에서 CoT 프롬프트를 사용했을 때 시각적 공간 추론 정확도가 평균적으로 하락하는 경향이 관찰되었습니다 [Figure 1]. 특히, No-Image++ 실험을 통해 모델들이 실제 이미지가 없음에도 불구하고 텍스트 기반의 사전 지식을 바탕으로 시각적 세부 사항을 hallucinate하고, 잘못된 근거를 생성하며 확신을 가지고 답을 선택하는 shortcut learning 현상을 확인하였습니다 [Table 3]. 이러한 결과는 MRMs가 시각적 정보를 grounded하게 활용하기보다 텍스트 패턴에 과도하게 의존하고 있음을 시사합니다 [Figure 2].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 CoT 기반 추론이 시각적 공간 영역으로 확장될 때 발생하는 성능 저하와 환각 현상을 실증적으로 입증하였습니다. 저자들은 단순한 텍스트 기반 추론의 확장이 아닌, 시각적 증거에 기반한 인지적 접근을 강조하며 vision-centric한 훈련 프레임워크의 필요성을 제시합니다. 향후 test-time visual verifier 도입이나 시각적 증거를 우선시하는 process reward model 연구가 이 분야의 발전을 견인할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model
현재글 : [논문리뷰] Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs
다음글 [논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language