[논문리뷰] StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs기존 시맨틱 음성 토크나이저의 노이즈에 대한 취약성 문제를 해결하는 것이 주요 목표입니다. 사소한 음향 교란에도 토큰 시퀀스가 급격히 변하여 다운스트림 SpeechLLMs 의 학습 부담을 증가시키는 불안정성을 극복하고, 노이즈에 강건하며 일관된 토큰 시퀀스를 생성하는 새로운 패러다임을 제시하고자 합니다.#Review#Speech Tokenizer#Noise Robustness#Semantic Tokens#SpeechLLMs#Voting-LFQ#Consensus Training#Automatic Speech Recognition#Speech Synthesis2025년 9월 30일댓글 수 로딩 중
[논문리뷰] VibeVoice Technical Report본 논문은 기존 시스템의 한계로 남아있던 장문(long-form) 및 다중 화자(multi-speaker) 대화형 오디오 합성의 확장성, 자연스러운 턴-테이킹, 내용 인식 생성 문제를 해결하는 것을 목표로 합니다.#Review#Speech Synthesis#Long-form Audio#Multi-speaker#Next-token Diffusion#Speech Tokenizer#Large Language Model#Variational Autoencoder#Audio Compression2025년 8월 27일댓글 수 로딩 중
[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.#Review#Speech Tokenizer#Diffusion Model#Text-to-Speech#Speech Language Modeling#Low Bitrate Codec#End-to-End Training#Binary Spherical Quantization2025년 8월 26일댓글 수 로딩 중