[논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning본 논문은 현대의 Vision-Language Models (VLMs)가 단일 비전 인코더(대체로 CLIP 기반)에 의존함에 따라 발생하는 세밀한 시각적 이해 및 위치 파악(Grounding) 능력의 한계를 해결하고자 합니다.#Review#Vision-Language Models#Multi-Encoder Fusion#Entropy-Guided Selection#Orthogonal Layer#RoPE#Visual Grounding#Multimodal Understanding2026년 4월 5일댓글 수 로딩 중