[논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking본 논문은 텍스트 전용 추론 모델이 암묵적인 공간 및 기하학적 관계를 파악하는 데 어려움을 겪는 복잡한 추론 문제의 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Visual Thinking#Reinforcement Learning#Code Generation#Geometric Reasoning#Adaptive Reward Mechanism#Problem Solving2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens기존 VLM이 이산적인 텍스트 기반 추론에 국한되어 공간 추론 및 기하학적 인식과 같은 미세한 시각적 이해가 필요한 작업에서 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language Models (VLMs)#Chain-of-Thought (CoT)#Continuous Visual Tokens#Multimodal Reasoning#Perceptual Grounding#Visual Thinking#Dense Prediction2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMsMultimodal Large Language Models (MLLMs)가 복잡한 시각적 계획과 상상력을 요구하는 시나리오에서 겪는 어려움을 해결하고, MLLM에 내부 시각적 스크래치패드(visual scratchpad) 를 부여하여 시각적 사고(visual thought) 를 통해 멀티모달 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Multimodal LLMs#Visual Reasoning#Latent Space#Sketch Generation#Visual Thinking#Autoregressive Generation#Interpretability2025년 10월 29일댓글 수 로딩 중