#Duration Control

1개의 포스트

[논문리뷰] MOSS-TTS Technical Report

Text-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.

#Review #Speech Generation #Foundation Model #Audio Tokenizer #Autoregressive Modeling #Voice Cloning #Duration Control #Multilingual TTS

2026년 3월 19일