[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation ModelsarXiv에 게시된 'MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models' 논문에 대한 자세한 리뷰입니다.#Review#Audio Tokenizer#Transformer Architecture#End-to-End Learning#Residual Vector Quantization#Speech Synthesis#Audio Foundation Models#Scalability#Autoregressive Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech SynthesisJihwan Lee이 arXiv에 게시한 'Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Speech#Accent Control#Phonological Rules#Speaker Embeddings#Speech Synthesis#Disentanglement#Accent Classification2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Drax: Speech Recognition with Discrete Flow MatchingarXiv에 게시된 'Drax: Speech Recognition with Discrete Flow Matching' 논문에 대한 자세한 리뷰입니다.#Review#Automatic Speech Recognition (ASR)#Discrete Flow Matching (DFM)#Non-Autoregressive (NAR)#Generative Models#Tri-mixture Probability Path#Parallel Decoding#Accuracy-Efficiency Trade-off#Speech Synthesis2025년 10월 8일댓글 수 로딩 중
[논문리뷰] StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMsWei Jia이 arXiv에 게시한 'StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Speech Tokenizer#Noise Robustness#Semantic Tokens#SpeechLLMs#Voting-LFQ#Consensus Training#Automatic Speech Recognition#Speech Synthesis2025년 9월 30일댓글 수 로딩 중
[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and ViewingarXiv에 게시된 'VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing' 논문에 대한 자세한 리뷰입니다.#Review#AI Assistants#Multimodal Benchmarking#Audio Understanding#Speech Synthesis#Vision-Language Models#Role-play#Safety#Robustness2025년 9월 29일댓글 수 로딩 중
[논문리뷰] VibeVoice Technical ReportYaoyao Chang이 arXiv에 게시한 'VibeVoice Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Speech Synthesis#Long-form Audio#Multi-speaker#Next-token Diffusion#Speech Tokenizer#Large Language Model#Variational Autoencoder#Audio Compression2025년 8월 27일댓글 수 로딩 중
[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic VocalizationsHaoyue Zhan이 arXiv에 게시한 'NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations' 논문에 대한 자세한 리뷰입니다.#Review#Paralinguistic Vocalizations#Speech Recognition#Text-to-Speech#Speech Synthesis#Data Annotation#Mandarin Speech#Expressive Speech2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Marco-Voice Technical ReportQingjuan Li이 arXiv에 게시한 'Marco-Voice Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Speech Synthesis#Voice Cloning#Emotion Control#Text-to-Speech#Disentanglement#Contrastive Learning#Flow Matching#Emotional Speech Dataset2025년 8월 8일댓글 수 로딩 중