#Speech Language Modeling

1개의 포스트

[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.

#Review #Speech Tokenizer #Diffusion Model #Text-to-Speech #Speech Language Modeling #Low Bitrate Codec #End-to-End Training #Binary Spherical Quantization

2025년 8월 26일