#Speech Synthesis

9개의 포스트

[논문리뷰] Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

본 논문은 Long-form speech generation 분야의 시스템적 평가가 체계적이지 못하다는 문제를 해결하기 위해 제안되었다. 기존 연구들은 제한된 도메인이나 단일 화자 설정에 머물러 있어, 실제 복잡한 하위 응용 프로그램과의 괴리가 존재한다.

#Review #Long-form Speech Generation #SwanBench-Speech #Speech Synthesis #Evaluation Benchmark #Prosodic Coherence #Acoustic Consistency #Expressive Hierarchy

2026년 5월 31일

[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

기존 오디오 토크나이저의 사전 학습된 인코더 , 의미론적 증류 , 이질적인 CNN 기반 아키텍처 의존성으로 인한 재구성 충실도 및 확장성 한계를 극복하는 것이 목표입니다.

#Review #Audio Tokenizer #Transformer Architecture #End-to-End Learning #Residual Vector Quantization #Speech Synthesis #Audio Foundation Models #Scalability #Autoregressive Models

2026년 2월 12일

[논문리뷰] Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

현재 TTS 시스템에서 스피커 임베딩이 액센트 외의 음색이나 감정과 같은 특성까지 인코딩하여 액센트 제어가 불투명하고 어렵다는 문제를 해결하고자 합니다.

#Review #Text-to-Speech #Accent Control #Phonological Rules #Speaker Embeddings #Speech Synthesis #Disentanglement #Accent Classification

2026년 1월 21일

[논문리뷰] StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

기존 시맨틱 음성 토크나이저의 노이즈에 대한 취약성 문제를 해결하는 것이 주요 목표입니다. 사소한 음향 교란에도 토큰 시퀀스가 급격히 변하여 다운스트림 SpeechLLMs 의 학습 부담을 증가시키는 불안정성을 극복하고, 노이즈에 강건하며 일관된 토큰 시퀀스를 생성하는 새로운 패러다임을 제시하고자 합니다.

#Review #Speech Tokenizer #Noise Robustness #Semantic Tokens #SpeechLLMs #Voting-LFQ #Consensus Training #Automatic Speech Recognition #Speech Synthesis

2025년 9월 30일

[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.

#Review #AI Assistants #Multimodal Benchmarking #Audio Understanding #Speech Synthesis #Vision-Language Models #Role-play #Safety #Robustness

2025년 9월 29일

[논문리뷰] VibeVoice Technical Report

본 논문은 기존 시스템의 한계로 남아있던 장문(long-form) 및 다중 화자(multi-speaker) 대화형 오디오 합성의 확장성, 자연스러운 턴-테이킹, 내용 인식 생성 문제를 해결하는 것을 목표로 합니다.

#Review #Speech Synthesis #Long-form Audio #Multi-speaker #Next-token Diffusion #Speech Tokenizer #Large Language Model #Variational Autoencoder #Audio Compression

2025년 8월 27일

[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

본 연구는 자연스러운 음성 의사소통에 필수적인 웃음, 호흡, 감탄사 등의 비언어적 발성(paralinguistic vocalizations) 이 기존 ASR 및 TTS 시스템에서 간과되는 문제를 해결하고자 합니다.

#Review #Paralinguistic Vocalizations #Speech Recognition #Text-to-Speech #Speech Synthesis #Data Annotation #Mandarin Speech #Expressive Speech

2025년 8월 13일

[논문리뷰] Marco-Voice Technical Report

본 논문은 음성 복제(voice cloning)와 감정 제어(emotion control)를 통합한 다기능 음성 합성 시스템 인 Marco-Voice 를 개발하는 것을 목표로 합니다.

#Review #Speech Synthesis #Voice Cloning #Emotion Control #Text-to-Speech #Disentanglement #Contrastive Learning #Flow Matching #Emotional Speech Dataset

2025년 8월 8일

[논문리뷰] Drax: Speech Recognition with Discrete Flow Matching

자동 음성 인식(ASR) 분야에서 순차적 디코딩 방식의 자기회귀(AR) 모델 이 가진 효율성 병목 현상과 높은 지연 시간을 해결하는 것이 주요 목표입니다.

#Review #Automatic Speech Recognition (ASR)#Discrete Flow Matching (DFM)#Non-Autoregressive (NAR)#Generative Models #Tri-mixture Probability Path #Parallel Decoding #Accuracy-Efficiency Trade-off #Speech Synthesis

2025년 10월 8일