[논문리뷰] Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios본 논문은 Long-form speech generation 분야의 시스템적 평가가 체계적이지 못하다는 문제를 해결하기 위해 제안되었다. 기존 연구들은 제한된 도메인이나 단일 화자 설정에 머물러 있어, 실제 복잡한 하위 응용 프로그램과의 괴리가 존재한다.#Review#Long-form Speech Generation#SwanBench-Speech#Speech Synthesis#Evaluation Benchmark#Prosodic Coherence#Acoustic Consistency#Expressive Hierarchy2026년 5월 31일댓글 수 로딩 중
[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models기존 오디오 토크나이저의 사전 학습된 인코더 , 의미론적 증류 , 이질적인 CNN 기반 아키텍처 의존성으로 인한 재구성 충실도 및 확장성 한계를 극복하는 것이 목표입니다.#Review#Audio Tokenizer#Transformer Architecture#End-to-End Learning#Residual Vector Quantization#Speech Synthesis#Audio Foundation Models#Scalability#Autoregressive Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis현재 TTS 시스템에서 스피커 임베딩이 액센트 외의 음색이나 감정과 같은 특성까지 인코딩하여 액센트 제어가 불투명하고 어렵다는 문제를 해결하고자 합니다.#Review#Text-to-Speech#Accent Control#Phonological Rules#Speaker Embeddings#Speech Synthesis#Disentanglement#Accent Classification2026년 1월 21일댓글 수 로딩 중
[논문리뷰] StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs기존 시맨틱 음성 토크나이저의 노이즈에 대한 취약성 문제를 해결하는 것이 주요 목표입니다. 사소한 음향 교란에도 토큰 시퀀스가 급격히 변하여 다운스트림 SpeechLLMs 의 학습 부담을 증가시키는 불안정성을 극복하고, 노이즈에 강건하며 일관된 토큰 시퀀스를 생성하는 새로운 패러다임을 제시하고자 합니다.#Review#Speech Tokenizer#Noise Robustness#Semantic Tokens#SpeechLLMs#Voting-LFQ#Consensus Training#Automatic Speech Recognition#Speech Synthesis2025년 9월 30일댓글 수 로딩 중
[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.#Review#AI Assistants#Multimodal Benchmarking#Audio Understanding#Speech Synthesis#Vision-Language Models#Role-play#Safety#Robustness2025년 9월 29일댓글 수 로딩 중
[논문리뷰] VibeVoice Technical Report본 논문은 기존 시스템의 한계로 남아있던 장문(long-form) 및 다중 화자(multi-speaker) 대화형 오디오 합성의 확장성, 자연스러운 턴-테이킹, 내용 인식 생성 문제를 해결하는 것을 목표로 합니다.#Review#Speech Synthesis#Long-form Audio#Multi-speaker#Next-token Diffusion#Speech Tokenizer#Large Language Model#Variational Autoencoder#Audio Compression2025년 8월 27일댓글 수 로딩 중
[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations본 연구는 자연스러운 음성 의사소통에 필수적인 웃음, 호흡, 감탄사 등의 비언어적 발성(paralinguistic vocalizations) 이 기존 ASR 및 TTS 시스템에서 간과되는 문제를 해결하고자 합니다.#Review#Paralinguistic Vocalizations#Speech Recognition#Text-to-Speech#Speech Synthesis#Data Annotation#Mandarin Speech#Expressive Speech2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Marco-Voice Technical Report본 논문은 음성 복제(voice cloning)와 감정 제어(emotion control)를 통합한 다기능 음성 합성 시스템 인 Marco-Voice 를 개발하는 것을 목표로 합니다.#Review#Speech Synthesis#Voice Cloning#Emotion Control#Text-to-Speech#Disentanglement#Contrastive Learning#Flow Matching#Emotional Speech Dataset2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Drax: Speech Recognition with Discrete Flow Matching자동 음성 인식(ASR) 분야에서 순차적 디코딩 방식의 자기회귀(AR) 모델 이 가진 효율성 병목 현상과 높은 지연 시간을 해결하는 것이 주요 목표입니다.#Review#Automatic Speech Recognition (ASR)#Discrete Flow Matching (DFM)#Non-Autoregressive (NAR)#Generative Models#Tri-mixture Probability Path#Parallel Decoding#Accuracy-Efficiency Trade-off#Speech Synthesis2025년 10월 8일댓글 수 로딩 중