[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

2026년 2월 16일수정: 2026년 2월 16일

링크: 논문 PDF로 바로 열기

저자: Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

핵심 연구 목표

본 논문은 현대 비전 아키텍처가 시각 신호의 본질적인 중복성과 변별 정보의 희소성을 효율적으로 다루지 못한다는 문제의식에서 출발합니다. 시각적 이해 문제를 해결하기 위해 정보 이론적 원칙(코덱) 에 아키텍처를 맞춰 계산 효율성을 높이고 성능을 개선하며, 범용 멀티모달 지능을 위한 확장 가능한 기반을 구축하는 것을 목표로 합니다.

핵심 방법론

OneVision-Encoder 는 HEVC(High Efficiency Video Coding) 스타일 비전 트랜스포머 를 사용하여 예측 시각 구조를 의미론적 의미로 압축합니다. Codec Patchification 을 통해 신호 엔트로피가 풍부한 영역(전체 영역의 3.1%-25% )에만 선택적으로 초점을 맞추며, 불규칙한 토큰 레이아웃을 위해 공유 3D ROPE 를 사용합니다. 백만 개 이상의 의미 개념 에 대한 클러스터 판별 목적 함수 로 학습되어 객체 영속성과 모션 역학을 동시에 포착합니다.

주요 결과

OneVision-Encoder 는 효율성과 정확도가 양의 상관관계를 가지며, 밀집 그리드와 희소 시맨틱 간의 격차를 해소하여 성능 한계를 재정의했습니다. Qwen3-ViT 및 SigLIP2 와 같은 강력한 비전 백본을 16개 이미지, 비디오, 문서 이해 벤치마크 에서 일관되게 능가하며, Qwen3-ViT 대비 비디오 태스크에서 평균 4.1% 성능 향상 을 달성했습니다. Diving-48 에서는 SigLIP2 및 DINOv3 대비 각각 17.1% 및 8.1% Top-1 정확도 향상 을 보여주었습니다.

AI 실무자를 위한 시사점

코덱 정렬 희소성 원칙 은 비전 아키텍처 설계에 있어 중요한 패러다임 변화를 제시합니다. OneVision-Encoder 는 적은 시각 토큰과 적은 사전 훈련 데이터로 뛰어난 멀티모달 성능을 달성하여, 리소스 효율적인 AI 모델 개발 에 기여합니다. 이는 비디오 코덱의 구조적 원리를 활용하여 대규모 멀티모달 모델에서 시공간적 이해와 추론 능력 을 향상시키는 실용적인 방법을 제공하며, 차세대 범용 시각 인코더의 기반이 될 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs
현재글 : [논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
다음글 [논문리뷰] RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models