[논문리뷰] Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders본 연구는 TTS 언어 모델의 내부 동작이 '블랙박스'로 남아있어, 특정 음성 속성을 정교하게 제어하기 어렵다는 문제를 해결합니다. 기존의 음성 모델은 특정 스타일이나 화자 변환을 위해 전체 모델을 재학습하거나 프롬프트 엔지니어링에 의존해야 하며, 이는 제어의 정밀도와 효율성 측면에서 한계가 있습니다.#Review#Sparse Autoencoders#Text-to-Speech#Mechanistic Interpretability#Latent Space#Controllable Generation2026년 6월 9일댓글 수 로딩 중
[논문리뷰] dots.tts Technical Report본 논문은 기존의 이산적(Discrete) 토큰 기반 TTS 모델이 가진 표현력의 한계를 극복하고, 연속적인(Continuous) latent 공간에서 안정적인 AR 음성 생성을 구현하고자 합니다.#Review#Text-to-Speech#Continuous Latent#Flow-Matching#Autoregressive#AudioVAE#Self-Correction#MeanFlow Distillation2026년 6월 7일댓글 수 로딩 중
[논문리뷰] Voxtral TTSNatural하고 Expressive한 Text-to-Speech (TTS)는 유연한 Human-Computer Interaction의 중요한 요소이며, 가상 비서, 오디오북, 접근성 도구 등 다양한 Application에 활용됩니다.#Review#Text-to-Speech#Zero-shot Voice Cloning#Hybrid Architecture#Speech Codec#Flow-Matching#Direct Preference Optimization#Finite Scalar Quantization#Multilingual TTS2026년 3월 26일댓글 수 로딩 중
[논문리뷰] Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis현재 TTS 시스템에서 스피커 임베딩이 액센트 외의 음색이나 감정과 같은 특성까지 인코딩하여 액센트 제어가 불투명하고 어렵다는 문제를 해결하고자 합니다.#Review#Text-to-Speech#Accent Control#Phonological Rules#Speaker Embeddings#Speech Synthesis#Disentanglement#Accent Classification2026년 1월 21일댓글 수 로딩 중
[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.#Review#Speech Tokenizer#Diffusion Model#Text-to-Speech#Speech Language Modeling#Low Bitrate Codec#End-to-End Training#Binary Spherical Quantization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations본 연구는 자연스러운 음성 의사소통에 필수적인 웃음, 호흡, 감탄사 등의 비언어적 발성(paralinguistic vocalizations) 이 기존 ASR 및 TTS 시스템에서 간과되는 문제를 해결하고자 합니다.#Review#Paralinguistic Vocalizations#Speech Recognition#Text-to-Speech#Speech Synthesis#Data Annotation#Mandarin Speech#Expressive Speech2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Marco-Voice Technical Report본 논문은 음성 복제(voice cloning)와 감정 제어(emotion control)를 통합한 다기능 음성 합성 시스템 인 Marco-Voice 를 개발하는 것을 목표로 합니다.#Review#Speech Synthesis#Voice Cloning#Emotion Control#Text-to-Speech#Disentanglement#Contrastive Learning#Flow Matching#Emotional Speech Dataset2025년 8월 8일댓글 수 로딩 중