[논문리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens기존 VLM이 이산적인 텍스트 기반 추론에 국한되어 공간 추론 및 기하학적 인식과 같은 미세한 시각적 이해가 필요한 작업에서 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language Models (VLMs)#Chain-of-Thought (CoT)#Continuous Visual Tokens#Multimodal Reasoning#Perceptual Grounding#Visual Thinking#Dense Prediction2025년 11월 24일댓글 수 로딩 중