#3D Environments

1개의 포스트

[논문리뷰] Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection

본 논문은 정적인 이미지에 국한된 기존 Vision-Language Models (VLMs) 의 Visual Question Answering (VQA) 한계를 극복하고, 앰뷸러토리 비전 능력을 갖춘 에이전트가 더 유익한 시점을 능동적으로 선택하도록 학습시키는 것을 목표로 합니다.

#Review #Active Perception #Vision-Language Models (VLMs)#Embodied AI #View Selection #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Visual Question Answering (VQA)#3D Environments

2025년 12월 15일