[논문리뷰] VibeVoice Technical Report본 논문은 기존 시스템의 한계로 남아있던 장문(long-form) 및 다중 화자(multi-speaker) 대화형 오디오 합성의 확장성, 자연스러운 턴-테이킹, 내용 인식 생성 문제를 해결하는 것을 목표로 합니다.#Review#Speech Synthesis#Long-form Audio#Multi-speaker#Next-token Diffusion#Speech Tokenizer#Large Language Model#Variational Autoencoder#Audio Compression2025년 8월 27일댓글 수 로딩 중