[논문리뷰] SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue본 논문은 기존의 긴 형식(Long-form) 다이얼로그 합성이 화자 전환, 정서적 연속성, 그리고 음향적 일관성 유지를 유지하는 데 한계가 있다는 문제를 해결하고자 한다. 기존의 워크아웃 방식인 개별 턴 단위 합성 및 병합은 전체적인 대화 맥락을 파악하지 못해 부자연스러운 전환과 환경 불일치를 초래한다.#Review#Zero-Shot TTS#Long-Form Synthesis#Dialogue Synthesis#Flow-Matching#DiffusionNFT#Speech Alignment2026년 5월 31일댓글 수 로딩 중