[논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization본 논문은 RLVR 기반의 Multimodal Reasoning Models(MRM)이 높은 정답 정확도를 달성함에도 불구하고, 정작 그 과정인 CoT 추론의 신뢰성이 현저히 떨어지는 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Constrained Policy Optimization#Chain-of-Thought#Visual Spatial Reasoning#Lagrangian Relaxation#Faithfulness2026년 4월 9일댓글 수 로딩 중