#Speech Generation

6개의 포스트

[논문리뷰] MOSS-TTS Technical Report

Text-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.

#Review #Speech Generation #Foundation Model #Audio Tokenizer #Autoregressive Modeling #Voice Cloning #Duration Control #Multilingual TTS

2026년 3월 19일

[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 멀티모달 생성을 위해 외부 전문가 구성 요소(예: 확산 디코더)에 의존하는 한계를 극복하고자 합니다.

#Review #Autoregressive Models #Multimodal AI #Any-to-Any Generation #Unified Model #Speech Generation #Image Generation #Transformer Decoder #Real-time Streaming

2026년 1월 26일

[논문리뷰] On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

본 논문은 음성 언어 모델(SLM) 평가에 널리 사용되는 '글로벌 토큰 퍼플렉시티(Global Token Perplexity)' 가 음성과 텍스트 양식 간의 근본적인 차이를 간과하여 실제 성능을 왜곡할 수 있다는 문제를 제기합니다.

#Review #Spoken Language Models #Evaluation Metrics #Perplexity #Mean Opinion Score #Likelihood-based Evaluation #Model-as-a-Judge #Acoustic Consistency #Speech Generation

2026년 1월 12일

[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.

#Review #Voice Style Adaptation #Spoken Language Models #Benchmark #LALM-as-a-Judge #Speech Generation #Multilingual #Evaluation Framework

2025년 9월 15일

[논문리뷰] UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

본 연구는 음성 및 음악 생성의 통합이라는 오랜 과제를 해결하는 것을 목표로 합니다.

#Review #Mixture of Experts #Speech Generation #Music Generation #Multimodal AI #Dynamic Routing #Training Curriculum #Data Imbalance #Audio Synthesis

2025년 10월 16일

[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다.

#Review #Omni-modal LLM #Audio-Visual Dialogue #Multi-turn Interaction #Speech Generation #Long-term Memory #Multimodal Understanding #End-to-end Training

2025년 10월 16일