#Voice Cloning

4개의 포스트

[논문리뷰] LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation

본 논문은 다국어 음성 합성 및 diarization 시스템에서 동일 화자가 언어(스크립트)를 전환할 때 발생하는 스피커 인식 오류 문제를 해결합니다.

#Review #Speaker Encoder #Indic Scripts #Gradient Reversal Layer #Speaker Verification #Language Adversarial Training #Voice Cloning #Diarization

2026년 5월 3일

[논문리뷰] MOSS-TTS Technical Report

Text-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.

#Review #Speech Generation #Foundation Model #Audio Tokenizer #Autoregressive Modeling #Voice Cloning #Duration Control #Multilingual TTS

2026년 3월 19일

[논문리뷰] Qwen3-TTS Technical Report

본 논문은 고급 다국어(multilingual) , 제어 가능한(controllable) , 강건한(robust) , 스트리밍(streaming) TTS 모델 인 Qwen3-TTS 시리즈를 소개하는 것을 목표로 합니다.

#Review #Text-to-Speech (TTS)#Multilingual #Voice Cloning #Controllable Speech #Streaming #Speech Tokenization #Language Models #Low-latency

2026년 1월 22일

[논문리뷰] Marco-Voice Technical Report

본 논문은 음성 복제(voice cloning)와 감정 제어(emotion control)를 통합한 다기능 음성 합성 시스템 인 Marco-Voice 를 개발하는 것을 목표로 합니다.

#Review #Speech Synthesis #Voice Cloning #Emotion Control #Text-to-Speech #Disentanglement #Contrastive Learning #Flow Matching #Emotional Speech Dataset

2025년 8월 8일