#Vision Language Models (VLMs)

4개의 포스트

[논문리뷰] Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

본 논문은 Chain-of-Thought (CoT) 프롬프팅의 지나친 장황함으로 인한 높은 연산 오버헤드 와 중간 추론 과정의 불투명성 문제를 해결하고자 합니다.

#Review #Chain-of-Thought (CoT)#Large Language Models (LLMs)#Vision Language Models (VLMs)#Latent Reasoning #Visual Modality #Image Rendering #Computational Efficiency #Knowledge Distillation

2026년 1월 21일

[논문리뷰] Geometrically-Constrained Agent for Spatial Reasoning

본 논문은 Vision Language Models (VLMs)이 공간 추론 시 겪는 의미론-기하학적 간극(semantic-to-geometric gap) 문제를 해결하고자 합니다.

#Review #Spatial Reasoning #Vision Language Models (VLMs)#Geometric Constraints #Agentic AI #Tool Integration #Semantic-to-Geometric Gap #Task Formalization

2025년 11월 30일

[논문리뷰] DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

본 논문은 Vision Language Models(VLMs)이 복잡하고 동적인 물리 환경에서 정확한 행동 계획 및 공간/시간 추론 능력 에 한계를 보이는 문제를 해결하고자 합니다.

#Review #Vision Language Models (VLMs)#Agentic AI #Physical Reasoning #Benchmark #Simulation Environments #Action Planning #Interactive AI

2025년 8월 8일

[논문리뷰] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

본 논문은 소규모 Vision-Language Model(VLM)이 복잡한 Embodied AI 태스크를 수행하는 데 필요한 지식과 기술 부족 문제를 해결하고자 합니다.

#Review #Embodied AI #Vision Language Models (VLMs)#Reinforcement Learning (RL)#Prior Learning #Supervised Fine-tuning (SFT)#Embodied Agents

2025년 10월 15일