#Audio Tokenization

1개의 포스트

[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens

기존의 멀티모달 시스템은 주로 언어 중심의 모델에 비언어적 모달리티를 외부 부착물(bolt-on) 형태로 결합하는 방식에 의존하여, 구조적 파편화와 최적화의 한계가 존재했습니다. 또한, 이산적 비전 모델링은 압축 과정에서의 정보 손실로 인해 성능의 상한선(ceiling)이 존재한다는 인식이 지배적이었습니다.

#Review #Multimodality #Autoregressive Modeling #Discrete Tokenization #Vision Transformer #Audio Tokenization #Mixture-of-Experts #Next-Token Prediction

2026년 3월 31일