본문으로 건너뛰기

[논문리뷰] SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

링크: 논문 PDF로 바로 열기

메타데이터

저자: Ruiqi Li, Yu Zhang, Changhao Pan, Ke Lei, Xiang Yin, Cheng Yang


1. Key Terms & Definitions (핵심 용어 및 정의)

  • SwanData-Speech: in-the-wild 오디오 데이터로부터 모놀로그 및 다이얼로그 학습 코퍼스를 구축하기 위해 설계된 데이터 처리 파이프라인입니다.
  • Swan Forced Aligner: 텍스트와 음성 간의 정확한 단어 수준 정렬을 위해 설계된, 명시적 인터리브(Interleaved) 구조를 갖춘 비지도 기반 정렬기입니다.
  • Flow-matching DiT: 음성 잠재 표현을 생성하기 위해 사용된 Transformer 기반 생성 모델로, 긴 문맥의 대화에서 발생하는 정렬 및 일관성 문제를 완화합니다.
  • DiffusionNFT: 사전 학습된 flow-matching 모델을 최적화하기 위해 reward 기반의 강화 학습(RL) 기법을 적용한 post-training 프레임워크입니다.
  • Staircase CFG: 텍스트 내용 안내와 참조 화자/스타일 안내를 분리하여 독립적으로 제어할 수 있게 하는 분류기 자유 가이드(Classifier-Free Guidance) 전략입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 긴 형식(Long-form) 다이얼로그 합성이 화자 전환, 정서적 연속성, 그리고 음향적 일관성 유지를 유지하는 데 한계가 있다는 문제를 해결하고자 한다. 기존의 워크아웃 방식인 개별 턴 단위 합성 및 병합은 전체적인 대화 맥락을 파악하지 못해 부자연스러운 전환과 환경 불일치를 초래한다. 이를 극복하기 위해 저자들은 대화 전체를 하나의 생성 문제로 접근하는 SwanVoice와 이를 지원하는 데이터 처리 파이프라인 SwanData-Speech를 제안한다 [Figure 1].

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 대화와 모놀로그 데이터를 모두 포괄하는 SwanVoice를 제안하며, 이는 25Hz VAE, Raw-text 조건부 입력, 그리고 flow-matching 기반의 DiT 아키텍처를 결합하여 설계되었다 [Figure 2]. 학습 과정은 모놀로그 사전 학습에서 시작하여 혼합 및 실제 대화 데이터로 이어지는 커리큘럼 학습을 적용하고, 마지막으로 DiffusionNFT를 사용한 post-training으로 발음 robustness와 화자 유사성을 강화한다.

평가 결과, SwanVoiceSwanBench-Speech 데이터셋에서 모든 오픈 소스 Baseline 모델들을 능가하는 성능을 보였다. 특히 모놀로그 및 다이얼로그 환경 모두에서 풍부함(Richness)과 계층 구조(Hierarchy) 점수가 가장 높게 나타났으며, 특히 다이얼로그 부문에서 강한 정성적 비교 우위를 확보했다 [Table 2]. 이는 제안하는 모델이 긴 형식의 대화에서도 우수한 정서적 일관성과 화자 표현력을 유지함을 입증한다.

4. Conclusion & Impact (결론 및 시사점)

본 연구는 대화를 파편화된 단위가 아닌 전체 맥락의 생성 문제로 정립함으로써 기존 TTS 모델이 가진 한계를 효과적으로 개선하였다. 제안된 파이프라인과 데이터 처리 방식은 긴 형식의 대화 합성 분야에서 일관성과 자연스러움을 향상시키는 중요한 기초가 될 것으로 평가된다. 학계와 산업계는 이 연구를 통해 보다 몰입감 있고 인간 대화와 유사한 AI 음성 생성 시스템을 구축하는 데 실질적인 기여를 얻을 수 있을 것으로 기대된다.


Part 2: 중요 Figure 정보

Figure 1: 계층적 데이터 처리 파이프라인

Figure 1 — 계층적 데이터 처리 파이프라인

Figure 2: SwanVoice의 학습 및 추론 절차

Figure 2 — SwanVoice의 학습 및 추론 절차

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글