[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.#sglang#ASR#Speech Recognition#Whisper#Transcription2026년 4월 9일댓글 수 로딩 중
[논문리뷰] RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluationmandipgoswami이 arXiv에 게시한 'RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#Reverberant Speech#Speech Corpus#Acoustic Metadata#Reproducible Research#ASR Evaluation#Room Impulse Response#Speech Recognition2026년 1월 28일댓글 수 로딩 중
[논문리뷰] POWSM: A Phonetic Open Whisper-Style Speech Foundation ModelarXiv에 게시된 'POWSM: A Phonetic Open Whisper-Style Speech Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Phonetic Foundation Model#Multitask Learning#Speech Recognition#Phone Recognition#Grapheme-to-Phoneme#Encoder-Decoder#Low-Resource Speech2025년 10월 31일댓글 수 로딩 중
[논문리뷰] RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modelingMandip Goswami이 arXiv에 게시한 'RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modeling' 논문에 대한 자세한 리뷰입니다.#Review#Room Impulse Response#Dataset#Room Acoustics#Machine Learning#Dereverberation#Speech Recognition#Simulation#Hugging Face2025년 10월 23일댓글 수 로딩 중
[논문리뷰] HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech RecognitionarXiv에 게시된 'HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition' 논문에 대한 자세한 리뷰입니다.#Review#Code-Switching#Speech Recognition#Korean-English ASR#Evaluation Framework#Multilingual ASR#Loanword Processing#Fine-tuning#Hierarchical Labeling2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance GapHengfan Zhang이 arXiv에 게시한 'Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap' 논문에 대한 자세한 리뷰입니다.#Review#Voice AI#LLM#Reasoning#Benchmark#Modality Gap#Latency#Speech Recognition#Generative AI#Real-time Systems#Conversational AI2025년 10월 1일댓글 수 로딩 중
[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic VocalizationsHaoyue Zhan이 arXiv에 게시한 'NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations' 논문에 대한 자세한 리뷰입니다.#Review#Paralinguistic Vocalizations#Speech Recognition#Text-to-Speech#Speech Synthesis#Data Annotation#Mandarin Speech#Expressive Speech2025년 8월 13일댓글 수 로딩 중
[논문리뷰] DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech RecognitionLukáš Burget이 arXiv에 게시한 'DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition' 논문에 대한 자세한 리뷰입니다.#Review#Speech Recognition#Encoder-Decoder#Regularization#Decoder-Centric#Intermediate Supervision#Out-of-Domain Generalization#Internal Language Model2025년 8월 13일댓글 수 로딩 중
[논문리뷰] MiDashengLM: Efficient Audio Understanding with General Audio CaptionsYadong Niu이 arXiv에 게시한 'MiDashengLM: Efficient Audio Understanding with General Audio Captions' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Language Model#General Audio Captions#Audio Understanding#Speech Recognition#Efficient Inference#Public Datasets#Multimodality#Data Curation2025년 8월 7일댓글 수 로딩 중