[논문리뷰] VIBEVOICE-ASR Technical Report

2026년 1월 26일수정: 2026년 1월 26일

링크: 논문 PDF로 바로 열기

저자: Zhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei (Microsoft Research)

핵심 연구 목표

본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다. 전통적인 파이프라인 방식의 한계를 극복하고, 단일 패스 처리로 ASR, 화자 분리(Diarization), 타임스탬프 를 통합하는 일반 목적의 음성 이해 프레임워크인 VIBEVOICE-ASR을 제안합니다.

핵심 방법론

VIBEVOICE-ASR은 VIBEVOICE 아키텍처 를 기반으로 최대 60분 길이의 오디오 를 단일 패스로 처리합니다. 7.5 tokens/sec 의 초저프레임률을 가진 이중 토크나이저(Acoustic 및 Semantic) 를 사용하여 1시간 오디오를 27,000 토큰 의 압축된 시퀀스로 변환하며, 이를 Qwen 2.5와 같은 디코더 전용 대규모 언어 모델 에 입력합니다. 출력은 화자 ID("Who") , 타임스탬프("When") , 내용("What") 이 명시적으로 교차하는 Rich Transcription 스트림 형태로 생성됩니다. 또한, 프롬프트 기반 컨텍스트 주입 메커니즘 을 통해 도메인 특화 용어 인식을 강화합니다.

주요 결과

VIBEVOICE-ASR은 Gemini-2.5-Pro 및 Gemini-3-Pro 를 포함한 강력한 폐쇄형 멀티모달 모델들을 5개 공개 벤치마크 에서 일관되게 능가합니다. 특히, 화자 분리 오류율(DER) 과 시간 제약 순열 단어 오류율(tcpWER) 에서 탁월한 정확도를 보이며, 예를 들어 AISHELL4 중국어 데이터셋에서 DER 6.77 과 tcpWER 25.35 를 달성하여 Gemini-3-Pro의 DER 22.03 및 tcpWER 54.17 대비 현저히 낮은 오류율을 기록했습니다. 이는 16개 평가 설정 중 11개 에서 cpWER 부문 최고 성능을, 8개 에서 WER 부문 최저 오류율을 달성하며 강력한 화자 모델링 및 시간 정렬 정확도를 입증했습니다.

AI 실무자를 위한 시사점

VIBEVOICE-ASR은 장문 오디오 처리에서 ASR, 화자 분리, 타임스탬프 를 단일 패스로 통합하는 효율적인 종단 간 접근 방식을 제시하여, 복잡한 다단계 파이프라인 구축의 필요성을 줄입니다. 프롬프트 기반 컨텍스트 주입 기능 은 특정 도메인 용어 및 코드 스위칭 시나리오에서 모델의 인식 정확도를 크게 향상시켜, 실제 응용 분야에서의 유연한 커스터마이징 가능성을 제공합니다. 모델 가중치 및 파이프라인의 오픈소스 공개 는 연구 커뮤니티와 개발자들이 저자원 언어나 다양한 응용 분야로의 확장 및 추가 연구를 수행하는 데 크게 기여할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
현재글 : [논문리뷰] VIBEVOICE-ASR Technical Report
다음글 [논문리뷰] daVinci-Dev: Agent-native Mid-training for Software Engineering