#Grounding Tokens

1개의 포스트

[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens

기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 .

#Review #Vision-Language Models #Grounding Tokens #Pointing #GUI Grounding #Video Grounding #Sample Efficiency

2026년 3월 30일