[논문리뷰] MOSS-TTS Technical ReportText-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.#Review#Speech Generation#Foundation Model#Audio Tokenizer#Autoregressive Modeling#Voice Cloning#Duration Control#Multilingual TTS2026년 3월 19일댓글 수 로딩 중
[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models기존 오디오 토크나이저의 사전 학습된 인코더 , 의미론적 증류 , 이질적인 CNN 기반 아키텍처 의존성으로 인한 재구성 충실도 및 확장성 한계를 극복하는 것이 목표입니다.#Review#Audio Tokenizer#Transformer Architecture#End-to-End Learning#Residual Vector Quantization#Speech Synthesis#Audio Foundation Models#Scalability#Autoregressive Models2026년 2월 12일댓글 수 로딩 중