#Speech Recognition

10개의 포스트

[논문리뷰] Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

본 논문은 multilingual ASR 모델인 Whisper를 저자원(Low-resource) 언어로 fine-tuning 할 때 발생하는 성능 불균형 문제를 해결하는 데 집중한다.

#Review #Speech Recognition #Curriculum Learning #Indic Languages #Fine-tuning #Whisper #Studio-bias #Robustness

2026년 5월 13일

[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현

SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.

#sglang #ASR #Speech Recognition #Whisper #Transcription

2026년 4월 9일

[논문리뷰] RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

본 논문은 잔향 스피치 처리 분야에서 투명한 음향 메타데이터와 용이한 재현성을 갖춘 표준화된 평가 자원의 부족 문제를 해결하고자 합니다.

#Review #Reverberant Speech #Speech Corpus #Acoustic Metadata #Reproducible Research #ASR Evaluation #Room Impulse Response #Speech Recognition

2026년 1월 28일

[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

본 연구는 자연스러운 음성 의사소통에 필수적인 웃음, 호흡, 감탄사 등의 비언어적 발성(paralinguistic vocalizations) 이 기존 ASR 및 TTS 시스템에서 간과되는 문제를 해결하고자 합니다.

#Review #Paralinguistic Vocalizations #Speech Recognition #Text-to-Speech #Speech Synthesis #Data Annotation #Mandarin Speech #Expressive Speech

2025년 8월 13일

[논문리뷰] DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition

본 논문은 Encoder-Decoder 기반 자동 음성 인식(ASR) 모델의 내부 언어 모델(ILM) 견고성을 향상시켜 도메인 내외(in- and out-of-domain) 환경에서의 일반화 성능을 개선 하는 것을 목표로 합니다.

#Review #Speech Recognition #Encoder-Decoder #Regularization #Decoder-Centric #Intermediate Supervision #Out-of-Domain Generalization #Internal Language Model

2025년 8월 13일

[논문리뷰] MiDashengLM: Efficient Audio Understanding with General Audio Captions

본 논문은 기존 대규모 오디오 언어 모델(LALM)이 직면한 폐쇄형 데이터 의존성, 일반화 및 접근성 한계, 그리고 자동 음성 인식(ASR) 기반 사전 훈련의 비효율성을 해결하고자 합니다.

#Review #Audio-Language Model #General Audio Captions #Audio Understanding #Speech Recognition #Efficient Inference #Public Datasets #Multimodality #Data Curation

2025년 8월 7일

[논문리뷰] POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

본 논문은 자동 음성 인식(ASR), 음소 인식(PR), 철자-음소 변환(G2P), 음소-철자 변환(P2G)과 같은 개별적으로 연구되어온 음소 관련 태스크들을 단일의 통합 프레임워크 에서 수행하는 것을 목표로 합니다.

#Review #Phonetic Foundation Model #Multitask Learning #Speech Recognition #Phone Recognition #Grapheme-to-Phoneme #Encoder-Decoder #Low-Resource Speech

2025년 10월 31일

[논문리뷰] HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition

본 연구는 한국어-영어 코드 스위칭(CS) 음성 인식(ASR) 분야의 심각한 연구 부족을 해결하고, 다국어 ASR 모델의 정밀한 평가를 위한 최초의 공개적인 계층적 평가 프레임워크인 HiKE 를 제시하는 것을 목표로 합니다.

#Review #Code-Switching #Speech Recognition #Korean-English ASR #Evaluation Framework #Multilingual ASR #Loanword Processing #Fine-tuning #Hierarchical Labeling

2025년 10월 7일

[논문리뷰] RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modeling

본 논문은 반향음 제거, 강건한 음성 인식, 음원 위치 추정, 음향 환경 추정 등 다양한 AI/ML 태스크를 위한 대규모 시뮬레이션된 Room Impulse Response (RIR) 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Room Impulse Response #Dataset #Room Acoustics #Machine Learning #Dereverberation #Speech Recognition #Simulation #Hugging Face

2025년 10월 23일

[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.

#Review #Voice AI #LLM #Reasoning #Benchmark #Modality Gap #Latency #Speech Recognition #Generative AI #Real-time Systems #Conversational AI

2025년 10월 1일