[논문리뷰] Voxtral TTSNatural하고 Expressive한 Text-to-Speech (TTS)는 유연한 Human-Computer Interaction의 중요한 요소이며, 가상 비서, 오디오북, 접근성 도구 등 다양한 Application에 활용됩니다.#Review#Text-to-Speech#Zero-shot Voice Cloning#Hybrid Architecture#Speech Codec#Flow-Matching#Direct Preference Optimization#Finite Scalar Quantization#Multilingual TTS2026년 3월 26일댓글 수 로딩 중
[논문리뷰] MOSS-TTS Technical ReportText-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.#Review#Speech Generation#Foundation Model#Audio Tokenizer#Autoregressive Modeling#Voice Cloning#Duration Control#Multilingual TTS2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data대부분의 영어 사용자가 비원어민(L2) 화자 임에도 불구하고, 현재의 Text-To-Speech (TTS) 시스템은 악센트 데이터 부족으로 인해 주로 미국식 영어 악센트(American-accented English) 를 모델링합니다.#Review#Text-To-Speech#Controllable Speech Synthesis#Accented Speech Generation#Accent Vector#Multilingual TTS#LoRA2026년 3월 12일댓글 수 로딩 중