[논문리뷰] ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations
링크: 논문 PDF로 바로 열기
본 논문은 ARM(AutoRegressive Large Multimodal Model)을 통해 시각적 정보와 텍스트 정보를 단일한 Discrete Representation 공간으로 통합하여 멀티모달 이해 및 생성 능력을 극대화하는 프레임워크를 제안합니다.
Part 1: 요약 본문
메타데이터
저자: Junke Wang, Xiao Wang, Jiacheng Pan, et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- ARM: AutoRegressive Large Multimodal Model의 약자로, 텍스트와 시각 데이터를 공통의 Discrete Token 시퀀스로 변환하여 Next-token Prediction 기반으로 학습 및 추론하는 모델입니다.
- Unified Discrete Representations: 이미지와 텍스트를 동일한 의미 공간 내의 이산적 토큰으로 변환하여, 모달리티 간의 간극을 줄이고 통합된 아키텍처 내에서 처리 가능하게 만드는 기법입니다.
- Visual Tokenization: 원시 이미지 데이터를 모델이 이해할 수 있는 고정된 크기의 Discrete Token으로 인코딩하는 과정으로, 본 논문에서는 효율적인 압축과 복원을 핵심으로 합니다.
- Autoregressive Generation: 모델이 이전 토큰 시퀀스를 기반으로 다음 토큰을 순차적으로 예측하는 방식으로, 텍스트와 이미지 생성을 일관된 파이프라인에서 수행하게 합니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 연구는 기존 멀티모달 모델들이 시각적 인코더와 언어 모델을 단순히 결합하는 방식에서 벗어나, 모달리티 간의 진정한 통합을 달성하고자 합니다. 기존 연구들은 Continuous Visual Features와 Discrete Text Tokens 사이의 이질적인 처리 방식으로 인해 정보 손실이나 최적화의 불균형이 발생한다는 한계를 지닙니다. 저자들은 이러한 불균형을 해소하기 위해 모든 데이터를 동일한 이산적 토큰 공간으로 투영하는 새로운 접근 방식이 필요하다고 지적합니다. 이를 통해 ARM은 시각과 언어를 본질적으로 동일한 데이터 스트림으로 취급함으로써 더 정교한 멀티모달 이해를 가능하게 합니다 [Figure 1].
3. Method & Key Results (제안 방법론 및 핵심 결과)
ARM은 시각적 입력을 효과적으로 토큰화하는 Visual Tokenizer와 이를 LLM의 입력으로 활용하는 통합된 아키텍처로 구성됩니다. 제안된 프레임워크는 시각적 정보를 Discrete Codebook 기반으로 인코딩하여 LLM이 텍스트를 처리하듯 시각 정보를 처리하게 함으로써 모델의 일관성을 강화합니다. 학습 과정에서는 Cross-modal Alignment를 위해 Autoregressive objective를 활용하여 시각적 문맥과 텍스트 문맥을 순차적으로 학습합니다. 성능 평가 결과, ARM은 기존의 LMM 대비 Zero-shot 성능에서 VQA 및 Captioning 태스크에서 평균 5.2%의 성능 향상을 기록하였습니다 [Table 1]. 또한, 추론 과정에서의 Latency를 최적화하여 이전 모델 대비 30% 이상 빠른 생성 속도를 달성하며 효율성을 입증하였습니다. 이러한 정량적 성과는 제안된 Unified Discrete Representations가 멀티모달 모델의 확장성과 효율성을 동시에 충족함을 보여줍니다.
4. Conclusion & Impact (결론 및 시사점)
본 논문은 시각과 언어를 완전히 통합된 Discrete 프레임워크로 처리함으로써 차세대 멀티모달 아키텍처의 가능성을 제시합니다. ARM은 단순한 모달리티 결합을 넘어, 데이터의 내재적 표현을 통일함으로써 LLM의 강력한 추론 능력을 시각 정보 처리까지 확장하였습니다. 본 연구는 학계에 멀티모달 학습의 새로운 패러다임을 제공하며, 산업계에서는 보다 범용적이고 경량화된 멀티모달 AI 시스템을 구축하는 데 중요한 기술적 토대가 될 것으로 기대됩니다.
Part 2: 중요 Figure 정보

Figure 1 — ARM 전체 아키텍처

Table 1 — 모델 성능 비교 결과
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
- [논문리뷰] HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers
- [논문리뷰] Channel-wise Vector Quantization
- [논문리뷰] UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection
- [논문리뷰] Context Unrolling in Omni Models
Review 의 다른글
- 이전글 [논문리뷰] ABot-Earth 0.5: Generative 3D Earth Model
- 현재글 : [논문리뷰] ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations
- 다음글 [논문리뷰] Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It
댓글