[논문리뷰] Voxtral TTSarXiv에 게시된 'Voxtral TTS' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Speech#Zero-shot Voice Cloning#Hybrid Architecture#Speech Codec#Flow-Matching#Direct Preference Optimization#Finite Scalar Quantization#Multilingual TTS2026년 3월 26일댓글 수 로딩 중
[논문리뷰] Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech SynthesisJihwan Lee이 arXiv에 게시한 'Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Speech#Accent Control#Phonological Rules#Speaker Embeddings#Speech Synthesis#Disentanglement#Accent Classification2026년 1월 21일댓글 수 로딩 중
[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language ModelingJiaqi Li이 arXiv에 게시한 'TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Speech Tokenizer#Diffusion Model#Text-to-Speech#Speech Language Modeling#Low Bitrate Codec#End-to-End Training#Binary Spherical Quantization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic VocalizationsHaoyue Zhan이 arXiv에 게시한 'NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations' 논문에 대한 자세한 리뷰입니다.#Review#Paralinguistic Vocalizations#Speech Recognition#Text-to-Speech#Speech Synthesis#Data Annotation#Mandarin Speech#Expressive Speech2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Marco-Voice Technical ReportQingjuan Li이 arXiv에 게시한 'Marco-Voice Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Speech Synthesis#Voice Cloning#Emotion Control#Text-to-Speech#Disentanglement#Contrastive Learning#Flow Matching#Emotional Speech Dataset2025년 8월 8일댓글 수 로딩 중