[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.#Review#Speech Tokenizer#Diffusion Model#Text-to-Speech#Speech Language Modeling#Low Bitrate Codec#End-to-End Training#Binary Spherical Quantization2025년 8월 26일댓글 수 로딩 중