[논문리뷰] Rethinking Token-Level Policy Optimization for Multimodal Chain-of-ThoughtMultimodal Chain-of-Thought (CoT) 추론은 Large Vision-Language Models (LVLMs)가 시각 정보와 다단계 추론을 통합하는 데 필수적이다.#Review#Multimodal Chain-of-Thought#Reinforcement Learning#Token-Level Optimization#Visual Similarity#Entropy2026년 3월 24일댓글 수 로딩 중