#Multimodal Chain-of-Thought

2개의 포스트

[논문리뷰] Look Light, Think Heavy: What Multimodal Chain-of-Thought Reasoning Can and Cannot Do

본 논문은 Multimodal CoT가 과연 모든 멀티모달 작업에서 일관되게 성능을 향상시키는지, 그리고 그 한계점은 무엇인지를 체계적으로 분석합니다. 최근 텍스트 중심 LLM에서는 CoT가 추론 능력을 극대화하는 표준으로 자리 잡았으나, 이를 멀티모달 영역으로 확장했을 때의 효용성은 여전히 불분명합니다.

#Review #Multimodal Chain-of-Thought #Visual Reasoning #LLM #Test-Time Scaling #Visual Reflection #Attention Bias

2026년 6월 24일

[논문리뷰] Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Multimodal Chain-of-Thought (CoT) 추론은 Large Vision-Language Models (LVLMs)가 시각 정보와 다단계 추론을 통합하는 데 필수적이다.

#Review #Multimodal Chain-of-Thought #Reinforcement Learning #Token-Level Optimization #Visual Similarity #Entropy

2026년 3월 24일