[논문리뷰] T5Gemma-TTS Technical Report본 논문은 T5Gemma 모델을 백본으로 활용하여 방대한 언어적 지식을 음성 생성 영역으로 전이합니다. 제안된 모델은 XCodec2를 사용하여 오디오를 토큰화하며, Cross-attention 레이어마다 PM-RoPE를 적용하여 생성 진행 상황을 실시간으로 감시함으로써 정밀한 duration control을 달성합니다 .#Review#text-to-speech#zero-shot voice cloning#encoder-decoder#PM-RoPE#multilingual evaluation2026년 4월 2일댓글 수 로딩 중