[논문리뷰] BabyVision: Visual Reasoning Beyond Language최신 멀티모달 대규모 언어 모델(MLLMs)이 고수준의 지식 기반 과제에서는 탁월하지만, 3세 아동도 쉽게 해결하는 기본적인 시각적 추론 과제에서 실패하는 근본적인 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Visual Reasoning#Benchmark#Early Vision#Spatial Perception#Visual Tracking#Pattern Recognition#Generative Models2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Visual Spatial Tuning본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Spatial Reasoning#Spatial Perception#Dataset Creation#Reinforcement Learning#Visuospatial AI#Robotics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model본 논문은 2D 데이터로 사전 훈련된 VLA 모델이 3D 물리 세계에서 정확한 동작을 수행하는 데 필요한 공간 인식이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Spatial Perception#Implicit Representation Alignment#3D Foundation Models#Robotics#Data Efficiency#Representation Learning2025년 10월 15일댓글 수 로딩 중