[논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

2026년 4월 5일수정: 2026년 4월 5일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Hisham Cholakkal, Imran Razzak, Xilin He, Komal Kumar, Ankan Deria, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

CoME-VL : 논문에서 제안하는 Complementary Multi-Encoder Vision-Language 프레임워크로, SigLIP2 의 의미론적 정보와 DINOv3 의 공간적 정보를 융합합니다.
Orthogonal Layer (OL) : 다중 인코더의 레이어 출력 간 중복성을 줄이기 위해 각 레이어에 적용하는 경량화된 직교 투영 기법입니다.
RoPE-enhanced Cross-Attention : 서로 다른 해상도의 비디오/이미지 토큰 그리드를 정렬하고, 효율적으로 융합하기 위해 Rotary Positional Embedding을 사용한 교차 주의 메커니즘입니다.
Entropy-informed Candidate Selection : 레이어별 엔트로피를 분석하여 의미론적으로 풍부하거나 공간적으로 세밀한 정보를 가진 레이어 범위를 전략적으로 선택하는 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대의 Vision-Language Models (VLMs)가 단일 비전 인코더(대체로 CLIP 기반)에 의존함에 따라 발생하는 세밀한 시각적 이해 및 위치 파악(Grounding) 능력의 한계를 해결하고자 합니다. 기존의 단일 인코더 기반 모델은 전역적인 특징을 잘 학습하지만, 정밀한 위치 정보나 복잡한 공간적 관계를 포착하는 데에는 취약하다는 문제가 있습니다. 또한, 단순히 여러 인코더의 특징을 결합하는 방식은 중복된 정보를 생성하고 과도한 토큰 수를 초래하여 계산 효율성을 저하시킵니다. 따라서 저자들은 서로 다른 시각적 인코딩 방식을 가진 SigLIP 와 DINO 를 효과적으로 융합하여 상호 보완적인 특징을 추출하는 새로운 아키텍처를 제안합니다 [Figure 1].

Figure 1: CoME-VL의 특징 엔트로피 분석

Figure 1 — CoME-VL의 특징 엔트로피 분석

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 엔트로피 분석을 통해 선택된 인코더 레이어들을 Orthogonal Layer 를 사용하여 투영함으로써, 특징 간의 중복성을 제거하고 상호 보완성을 극대화합니다 [Figure 3]. 제안된 RoPE-enhanced Cross-attention 은 비대칭적인 인코더 토큰 그리드를 효율적으로 정렬하며, 결과적으로 LLM 의 컨텍스트 길이를 늘리지 않고도 고성능의 시각적 이해와 위치 파악 능력을 제공합니다. 실험 결과, CoME-VL 은 Visual Understanding 및 Grounding 작업에서 단일 인코더 베이스라인 모델 대비 각각 평균 4.9%와 5.4%의 성능 향상을 기록했습니다. 특히 RefCOCO 벤치마크에서 testA 및 testB 분할 모두에서 최상위 성능(State-of-the-art)을 달성하였으며, 위치 파악 정밀도 면에서 기존 방식들을 큰 차이로 앞질렀습니다 [Table 3]. 또한 PixMo 벤치마크에서도 카운팅 및 포인팅 작업에서 탁월한 성능을 입증하였습니다 [Table 2].

Figure 3: CoME-VL 프레임워크 아키텍처

Figure 3 — CoME-VL 프레임워크 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 연구는 상호 보완적인 시각적 특징을 가진 비전 인코더들을 전략적으로 융합하여 VLM 의 시각적 이해 및 위치 파악 능력을 비약적으로 개선했습니다. 제안된 엔트로피 기반의 레이어 선택과 직교성 정규화 기법은 향후 다중 인코더 결합 아키텍처 설계에 있어 중요한 원칙을 제시합니다. 이 연구는 대형 모델에서 비전 인코더 병목 현상을 해결하는 효과적이고 효율적인 방법을 제공하며, 산업계와 학계의 더욱 정밀하고 신뢰할 수 있는 다중 모달 AI 시스템 개발에 크게 기여할 것으로 기대됩니다.

Figure 4: PixMo 기반 포인팅 정성적 비교

Figure 4 — PixMo 기반 포인팅 정성적 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?
현재글 : [논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning
다음글 [논문리뷰] InCoder-32B-Thinking: Industrial Code World Model for Thinking