#Perceptual Grounding

2개의 포스트

[논문리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

기존 VLM이 이산적인 텍스트 기반 추론에 국한되어 공간 추론 및 기하학적 인식과 같은 미세한 시각적 이해가 필요한 작업에서 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models (VLMs)#Chain-of-Thought (CoT)#Continuous Visual Tokens #Multimodal Reasoning #Perceptual Grounding #Visual Thinking #Dense Prediction

2025년 11월 24일

[논문리뷰] More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models

이 논문은 Vision-Language Models (VLMs)의 추론이 논리적 추론을 강화하지만, 기본적인 시각적 질문에서 인식 기반(perceptual grounding)을 손상시켜 인식 실패를 초래하는 이중적인 특성을 탐구합니다.

#Review #Vision-Language Models #Multimodal Reasoning #Reasoning #Visual Forgetting #Perceptual Grounding #Reinforcement Learning #Policy Optimization #Visual Anchors

2025년 10월 1일