#Long-form Audio

2개의 포스트

[논문리뷰] VIBEVOICE-ASR Technical Report

본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.

#Review #Automatic Speech Recognition #Speaker Diarization #Long-form Audio #Large Language Models #End-to-end Speech Processing #Multilingual #Context-aware ASR

2026년 1월 26일

[논문리뷰] VibeVoice Technical Report

본 논문은 기존 시스템의 한계로 남아있던 장문(long-form) 및 다중 화자(multi-speaker) 대화형 오디오 합성의 확장성, 자연스러운 턴-테이킹, 내용 인식 생성 문제를 해결하는 것을 목표로 합니다.

#Review #Speech Synthesis #Long-form Audio #Multi-speaker #Next-token Diffusion #Speech Tokenizer #Large Language Model #Variational Autoencoder #Audio Compression

2025년 8월 27일