[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 .#Review#Vision-Language Models#Grounding Tokens#Pointing#GUI Grounding#Video Grounding#Sample Efficiency2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.#Review#Embodied AI#Robotic Manipulation#Reinforcement Learning#Vision-Language Model#Pointing#Zero-shot Generalization2025년 8월 20일댓글 수 로딩 중