[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 .#Review#Vision-Language Models#Grounding Tokens#Pointing#GUI Grounding#Video Grounding#Sample Efficiency2026년 3월 30일댓글 수 로딩 중