[논문리뷰] Beyond Language Modeling: An Exploration of Multimodal Pretraining

2026년 3월 3일수정: 2026년 3월 3일

링크: 논문 PDF로 바로 열기

저자: Shengbang Tong, David Fan, John Nguyen, et al.

핵심 연구 목표

본 논문은 기존 언어 모델링의 한계를 넘어, 비전 신호를 퍼스트 클래스 시민 으로 통합한 통합 멀티모달 사전 훈련(unified multimodal pretraining) 의 설계 공간을 탐색하고 경험적 명확성을 제공하는 것을 목표로 합니다. 특히, 사전 훈련된 언어 모델의 가중치 초기화 없이 스크래치부터 단일 모델을 훈련 하여 시각과 언어 간의 근본적인 역학 및 스케일링 관계를 이해하고자 합니다.

핵심 방법론

연구진은 Transfusion 프레임워크 를 사용하여 단일 디코더 전용 Transformer 모델 을 스크래치부터 훈련했습니다. 언어에 대해서는 다음 토큰 예측(next-token prediction) 을, 비전에 대해서는 확산 모델(diffusion for vision) 을 적용했으며, text, video, image-text pairs, action-conditioned video 등 다양한 데이터를 활용했습니다. 시각적 표현으로는 Representation Autoencoders (RAE) 의 효율성을 검증하고, 동적 용량 할당을 위해 Mixture-of-Experts (MoE) 아키텍처 를 탐구했습니다.

주요 결과

RAE 기반의 semantic encoders (예: SigLIP 2) 가 시각적 이해와 생성 모두에서 최적의 성능을 달성했습니다. 멀티모달 데이터(특히 비디오) 추가는 언어 모델링 성능에 미치는 영향이 미미하며, VQA(visual question answering) 및 세계 모델링(world modeling) 과 같은 다운스트림 태스크에서 긍정적인 시너지 효과 를 보였습니다. MoE 아키텍처 는 언어에 더 많은 전문가가 할당되는 모달리티 전문화(modality specialization) 를 자연스럽게 유도하며, 스케일링 법칙(scaling laws) 분석 결과 시각이 언어보다 데이터 요구량이 훨씬 많지만(Dopt ∝ C^0.63 vs C^0.53) , MoE가 이러한 불균형을 효과적으로 완화하는 것으로 나타났습니다.

AI 실무자를 위한 시사점

AI 엔지니어는 시각적 이해와 생성에 모두 뛰어난 RAE 기반 인코더 를 활용하여 모델 아키텍처를 단순화하고 효율성을 높일 수 있습니다. 또한, 다양한 멀티모달 데이터 소스 를 활용한 공동 훈련은 크로스모달 시너지를 통해 VQA 및 세계 모델링 같은 복합 태스크 성능을 향상시키므로 적극 권장됩니다. 특히, MoE 아키텍처 는 시각과 언어 모달리티 간의 스케일링 불균형 문제를 해결하고 자원을 효율적으로 할당함으로써 고성능의 통합 멀티모달 모델 을 구축하는 데 핵심적인 전략입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] APRES: An Agentic Paper Revision and Evaluation System
현재글 : [논문리뷰] Beyond Language Modeling: An Exploration of Multimodal Pretraining
다음글 [논문리뷰] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models