[논문리뷰] GEM: Generative Supervision Helps Embodied Intelligence본 논문은 현재의 Embodied VLM들이 고수준의 언어적 추론에는 능숙하지만, 실제 물리 환경에서 로봇을 제어하기 위한 미세한 공간적 구조와 물리적 인지 능력이 결합되지 못하는 한계를 해결하고자 합니다.#Review#Embodied Intelligence#Vision-Language Models#Generative Supervision#Depth Map Prediction#Diffusion Transformer#Robot Manipulation#Spatiotemporal Planning2026년 5월 27일댓글 수 로딩 중