[논문리뷰] Qwen3-ASR Technical Report

수정: 2026년 1월 30일

링크: 논문 PDF로 바로 열기

저자: Qwen Team

핵심 연구 목표

본 논문은 Qwen3-ASR 모델 제품군을 소개하며, 기존 ASR 모델의 한계를 넘어선 최첨단 성능과 효율성을 제공하는 것을 목표로 합니다. 특히, 다국어 및 다양한 환경에서의 음성 인식 정확도를 높이고, 혁신적인 LLM 기반 강제 정렬 모델 을 통해 단어/문장 단위의 타임스탬프 예측 기능을 통합하는 것을 중점으로 합니다.

핵심 방법론

Qwen3-Omni 파운데이션 모델을 기반으로, 음성 처리를 위한 AuT (Attention-encoder-decoder) 인코더 를 활용합니다. 학습은 AuT 사전 훈련 , Omni 사전 훈련 , ASR 지도 미세 조정(SFT) , 그리고 ASR 강화 학습(RL) 의 4단계로 진행됩니다. 강제 정렬 모델인 Qwen3-ForcedAligner-0.6BLLM 기반의 비자기회귀(NAR) 타임스탬프 예측기 로 설계되어, 언어별 음소 세트나 사전 없이 다양한 언어에 대한 정렬을 가능하게 합니다.

주요 결과

Qwen3-ASR-1.7B 는 공개 ASR 모델 중 최고 수준의 성능 을 달성하며 상용 API와 경쟁력을 보였고, Qwen3-ASR-0.6B92ms 의 평균 Time-to-First-Token과 128 동시성 에서 초당 2,000초 의 음성을 처리하는 뛰어난 효율성을 보였습니다. Qwen3-ForcedAligner-0.6B 는 인위적으로 레이블링된 테스트 데이터셋에서 기존 강제 정렬 모델 대비 축적된 평균 시프트가 67%~77% 감소 하며 우수한 정확도를 입증했습니다.

AI 실무자를 위한 시사점

Qwen3-ASR 제품군은 다국어, 노이즈 환경, 노래 음성 인식 및 효율적인 추론을 통합하는 강력한 올인원 ASR 솔루션을 제공합니다. 특히 0.6B 모델은 정확도-효율성 측면에서 최고의 균형을 제공하여 온디바이스 배포 및 실시간 서비스에 적합하며, 오픈소스 공개를 통해 ASR 및 오디오 이해 연구 커뮤니티 발전에 기여할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#ASR#Language Identification#Forced Alignment#Large Audio-Language Models#Multilingual Speech Recognition#Streaming Inference#Qwen3-Omni

Review 의 다른글