#Spatial Perception

3개의 포스트

[논문리뷰] BabyVision: Visual Reasoning Beyond Language

최신 멀티모달 대규모 언어 모델(MLLMs)이 고수준의 지식 기반 과제에서는 탁월하지만, 3세 아동도 쉽게 해결하는 기본적인 시각적 추론 과제에서 실패하는 근본적인 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Benchmark #Early Vision #Spatial Perception #Visual Tracking #Pattern Recognition #Generative Models

2026년 1월 12일

[논문리뷰] Visual Spatial Tuning

본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Spatial Reasoning #Spatial Perception #Dataset Creation #Reinforcement Learning #Visuospatial AI #Robotics

2025년 11월 9일

[논문리뷰] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

본 논문은 2D 데이터로 사전 훈련된 VLA 모델이 3D 물리 세계에서 정확한 동작을 수행하는 데 필요한 공간 인식이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Spatial Perception #Implicit Representation Alignment #3D Foundation Models #Robotics #Data Efficiency #Representation Learning

2025년 10월 15일