[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens

2026년 3월 30일수정: 2026년 3월 30일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Yue Yang, Christopher Clark, Jae Sung Park, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Grounding Tokens : LLM이 입력 이미지나 비디오의 특정 부분을 직접 선택하기 위해 사용하는 특수 토큰 (<PATCH>, <SUBPATCH>, <LOCATION>)입니다.
Pointing : VLM이 이미지나 비디오의 특정 영역을 가리키는 능력으로, 로봇 제어, GUI 조작, 객체 추적 등 다양한 태스크에 활용됩니다.
Rotary Embedding (RoPE) : 선택된 patch의 위치 정보를 인코딩하여 VLM이 순차적으로 올바른 지점을 지시하도록 돕는 메커니즘입니다.
No-More-Points Class : <PATCH> 토큰이 더 이상 가리킬 지점이 없음을 나타내어, 모델의 비정상적인 반복 포인팅을 방지하는 특수 클래스입니다.
Sample Efficiency : 기존의 텍스트 좌표 생성 방식보다 훨씬 적은 데이터와 학습 단계로도 높은 포인팅 성능을 달성하는 학습 효율성을 의미합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 [Figure 1]. 또한, 기존 모델들은 높은 해상도의 GUI 환경이나 복잡한 비디오 추적 환경에서 정확한 로컬라이제이션(Localization)을 수행하는 데 어려움을 겪습니다. 저자들은 이러한 한계를 극복하기 위해 좌표 생성 대신 시각적 토큰을 직접 선택하는 직관적이고 효율적인 포인팅 메커니즘인 MolmoPoint 를 제안합니다.

Figure 1: MolmoPoint의 전체적인 포인팅 과정 개요

Figure 1 — MolmoPoint의 전체적인 포인팅 과정 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

MolmoPoint 는 coarse-to-fine 방식을 통해 포인팅을 수행합니다. 먼저 <PATCH> 토큰이 LLM의 히든 스테이트를 활용하여 coarse-grained 패치를 선택하고, 이어서 <SUBPATCH> 토큰이 ViT 특징을 통해 해당 패치 내의 더 세밀한 영역을 선택하며, 마지막으로 <LOCATION> 토큰이 3x3 그리드 내의 정밀한 좌표를 도출합니다 [Figure 2]. 모델은 이전 포인팅 위치와의 상대적 거리를 Rotary Embedding 으로 인코딩하여 일관된 포인팅 순서를 유지합니다. 실험 결과, MolmoPoint-8B 는 PointBench 에서 70.7% 의 점수를 기록하며 SoTA를 달성하였으며, 이전 모델 대비 추론 효율성과 학습 샘플 효율성이 크게 향상되었습니다. GUI 환경에서도 MolmoPoint-GUI-8B 는 ScreenSpotPro 에서 61.1% 의 성능을 보이며 오픈 모델 중 최고 수준의 성능을 입증했습니다 [Table 3]. 또한 비디오 포인팅 및 추적 태스크에서 Molmo2 대비 유의미한 성능 향상을 달성하였습니다 [Table 5].

Figure 2: Grounding 토큰을 활용한 coarse-to-fine 포인팅 메커니즘

Figure 2 — Grounding 토큰을 활용한 coarse-to-fine 포인팅 메커니즘

4. Conclusion & Impact (결론 및 시사점)

본 연구는 시각적 토큰을 직접 참조하는 Grounding Tokens 방식이 VLM의 포인팅 성능과 학습 효율성을 획기적으로 개선할 수 있음을 입증했습니다. 특히 좌표 시스템을 직접 학습할 필요가 없어 다양한 해상도와 도메인에 대한 일반화 능력이 우수합니다. 이러한 성과는 로봇 제어, GUI 에이전트, 비디오 이해 등 정밀한 시각적 참조가 필요한 학계 및 산업계 전반에 걸쳐 중요한 기여를 할 것으로 기대됩니다. 향후 연구에서는 텍스트나 오디오 토큰으로의 포인팅 확장을 통해 더욱 강력한 멀티모달 이해 모델로 발전할 가능성이 있습니다.

Figure 3: MolmoPoint-GUISyn 데이터셋 생성 파이프라인

Figure 3 — MolmoPoint-GUISyn 데이터셋 생성 파이프라인

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design
현재글 : [논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens
다음글 [논문리뷰] MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences