[논문리뷰] LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation본 논문은 다국어 음성 합성 및 diarization 시스템에서 동일 화자가 언어(스크립트)를 전환할 때 발생하는 스피커 인식 오류 문제를 해결합니다.#Review#Speaker Encoder#Indic Scripts#Gradient Reversal Layer#Speaker Verification#Language Adversarial Training#Voice Cloning#Diarization2026년 5월 3일댓글 수 로딩 중
[논문리뷰] MOSS-TTS Technical ReportText-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.#Review#Speech Generation#Foundation Model#Audio Tokenizer#Autoregressive Modeling#Voice Cloning#Duration Control#Multilingual TTS2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Qwen3-TTS Technical Report본 논문은 고급 다국어(multilingual) , 제어 가능한(controllable) , 강건한(robust) , 스트리밍(streaming) TTS 모델 인 Qwen3-TTS 시리즈를 소개하는 것을 목표로 합니다.#Review#Text-to-Speech (TTS)#Multilingual#Voice Cloning#Controllable Speech#Streaming#Speech Tokenization#Language Models#Low-latency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Marco-Voice Technical Report본 논문은 음성 복제(voice cloning)와 감정 제어(emotion control)를 통합한 다기능 음성 합성 시스템 인 Marco-Voice 를 개발하는 것을 목표로 합니다.#Review#Speech Synthesis#Voice Cloning#Emotion Control#Text-to-Speech#Disentanglement#Contrastive Learning#Flow Matching#Emotional Speech Dataset2025년 8월 8일댓글 수 로딩 중