#Video-to-Speech

1개의 포스트

[논문리뷰] Hierarchical Codec Diffusion for Video-to-Speech Generation

본 논문은 기존 VTS 방법론들이 음성의 계층적 구조를 간과함으로써 시각 정보와 음성 특징 간의 효과적인 정렬에 한계를 보이는 문제를 해결하고자 한다.

#Review #Video-to-Speech #Discrete Diffusion Models #Hierarchical Modeling #Audio-Visual Alignment #Residual Vector Quantization #Transformer

2026년 4월 19일