[논문리뷰] Thinking with Visual Grounding본 논문은 기존 VLM(Vision-Language Model)의 추론 과정이 언어적 논리에는 치중되어 있으나, 정작 그 논리의 근거가 되는 이미지 내 특정 영역을 명시하지 않아 검증이 어렵다는 문제를 해결하고자 합니다.#Review#Visually Grounded Thinking#Vision-Language Models#Reinforcement Learning#Visual Grounding#SAM3#Spatial Reasoning2026년 6월 18일댓글 수 로딩 중