[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens

2026년 3월 31일수정: 2026년 3월 31일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

저자: Meituan LongCat Team

1. Key Terms & Definitions (핵심 용어 및 정의)

DiNA (Discrete Native Autoregression) : 텍스트, 비전, 오디오 등 다양한 모달리티를 공유된 이산(discrete) 토큰 공간 내에서 통합적으로 처리하는 모델링 패러다임입니다.
dNaViT (Discrete Native Resolution Vision Transformer) : 이미지를 해상도에 구애받지 않고 계층적 이산 토큰으로 변환(tokenization)하고 다시 복원(de-tokenization)할 수 있는 통합 비전 토크나이저입니다.
SAE (Semantic-and-Aligned Encoder) : 대규모 언어 기반 지도 학습을 통해 의미적으로 풍부하고 언어 모델과 정렬된 비전 특징을 추출하는 인코더 클래스입니다.
RVQ (Residual Vector Quantization) : 고차원 연속 신호를 여러 단계의 코드북으로 나누어 이산화함으로써 정보 손실을 최소화하는 계층적 양자화 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

기존의 멀티모달 시스템은 주로 언어 중심의 모델에 비언어적 모달리티를 외부 부착물(bolt-on) 형태로 결합하는 방식에 의존하여, 구조적 파편화와 최적화의 한계가 존재했습니다. 또한, 이산적 비전 모델링은 압축 과정에서의 정보 손실로 인해 성능의 상한선(ceiling)이 존재한다는 인식이 지배적이었습니다. 저자들은 이러한 한계를 극복하고자 멀티모달 정보를 하나의 공유된 이산 공간에서 처리하여 구조적 단순함과 통합된 모델링 성능을 동시에 확보하고자 합니다 [Figure 2].

Figure 2: LongCat-Next 아키텍처 개요

Figure 2 — LongCat-Next 아키텍처 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 DiNA 패러다임을 제안하며, 이를 기반으로 언어, 비전, 오디오를 하나의 autoregressive objective로 처리하는 LongCat-Next 를 개발했습니다. 핵심 구성 요소인 dNaViT 는 SAE 를 활용해 의미적 완성도를 확보하고, RVQ 를 통해 28배 압축률 내에서도 고품질의 이해 및 생성 성능을 유지합니다. LongCat-Next 는 Mixture-of-Experts (MoE) 아키텍처를 기반으로 학습되어 모달리티 간의 경쟁을 최소화하고 시너지를 극대화합니다. 정량적 평가 결과, LongCat-Next 는 MMMU-Pro (60.3), MathVista (83.1) 등 주요 이해력 벤치마크에서 전문 모델들을 능가하는 성능을 보였습니다 [Table 1]. 또한, 텍스트 기반 이미지 생성(T2I) 및 음성 관련 작업에서도 기존 전문 모델 대비 경쟁력 있는 우위를 입증했습니다 [Table 2, Table 4].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 멀티모달 모델링이 언어 모델의 차세대 이산 autoregressive 패러다임 내에서 통합될 수 있음을 증명했습니다. LongCat-Next 는 별도의 태스크 특화 설계 없이도 보고, 그리고 말하는 능력을 효과적으로 결합하여 산업계 수준의 범용 멀티모달 모델로서의 가능성을 제시했습니다. 이 연구는 멀티모달 기초 모델의 새로운 표준을 제안하며, 향후 더 복잡하고 통합적인 멀티모달 지능 연구의 핵심적인 토대가 될 것으로 기대됩니다.

Figure 3: dNaViT 비전 토크나이저 구조

Figure 3 — dNaViT 비전 토크나이저 구조

Figure 4: dNaViT 학습 파이프라인

Figure 4 — dNaViT 학습 파이프라인

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells
현재글 : [논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens
다음글 [논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation