[논문리뷰] Fish Audio S2 Technical Report본 논문은 기존 TTS 시스템의 한계를 극복하여, 자연어 지시를 따르는 세밀한 제어(fine-grained control) , 다중 화자 및 다중 턴(multi-speaker, multi-turn) 생성 , 그리고 장문 합성(long-form synthesis) 을 지원하는 오픈소스 TTS 시스템인 Fish Audio S2 를 개발하는 것을 목표로 합니다.#Review#Text-to-Speech (TTS)#Multi-speaker#Multi-turn#Instruction Following#Dual-Autoregressive#Reinforcement Learning (RL)#Data Pipeline#SGLang2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Qwen3-TTS Technical Report본 논문은 고급 다국어(multilingual) , 제어 가능한(controllable) , 강건한(robust) , 스트리밍(streaming) TTS 모델 인 Qwen3-TTS 시리즈를 소개하는 것을 목표로 합니다.#Review#Text-to-Speech (TTS)#Multilingual#Voice Cloning#Controllable Speech#Streaming#Speech Tokenization#Language Models#Low-latency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Step-Audio-EditX Technical Report이 논문은 표현력이 풍부하고 반복적인 음성 편집(감정, 말하기 스타일, 운율 포함)과 강력한 제로샷 텍스트-음성 변환(TTS) 기능을 제공하는 최초의 오픈소스 LLM 기반 오디오 모델인 Step-Audio-EditX 를 제안합니다.#Review#LLM-based Audio Model#Audio Editing#Text-to-Speech (TTS)#Zero-shot Learning#Large-Margin Data#Reinforcement Learning (RLHF)#Emotion Control#Speaking Style Transfer2025년 11월 9일댓글 수 로딩 중