#Whisper

9개의 포스트

[논문리뷰] Duration Aware Scheduling for ASR Serving Under Workload Drift

본 논문은 대규모 ASR 시스템에서 FCFS 기반 스케줄링이 작업 시간의 가변성을 고려하지 못해 발생하는 비효율성 문제를 해결한다. 기존의 vLLM과 같은 서빙 엔진들은 입력을 순차적으로 처리하므로, 긴 오디오 요청이 짧은 요청들을 가로막는 Head-of-Line blocking 현상이 빈번하게 발생한다.

#Review #ASR #Scheduling #Latency #vLLM #Whisper #Workload Drift #SJF #HRRN

2026년 6월 18일

[논문리뷰] Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

본 논문은 Whisper와 같은 대규모 신경망 기반 ASR 모델이 비음성 오디오를 입력받았을 때 발생하는 환각 문제를 해결하는 것을 목적으로 한다. 기존의 heuristic 필터링 방식은 높은 신뢰도로 환각을 생성하는 사례를 효과적으로 걸러내지 못하는 한계를 지닌다.

#Review #Automatic Speech Recognition #Hallucinations #Whisper #Sparse AutoEncoder #Activation Steering

2026년 6월 8일

[논문리뷰] Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

본 논문은 multilingual ASR 모델인 Whisper를 저자원(Low-resource) 언어로 fine-tuning 할 때 발생하는 성능 불균형 문제를 해결하는 데 집중한다.

#Review #Speech Recognition #Curriculum Learning #Indic Languages #Fine-tuning #Whisper #Studio-bias #Robustness

2026년 5월 13일

[SGLang] Audio 모델: Whisper, Qwen3-ASR, GLM-ASR 프로세서

SGLang의 Audio 모델 프로세서를 분석한다. Whisper, Qwen3-ASR, GLM-ASR 등 음성 모델의 오디오 전처리, 스펙트로그램 변환, 텍스트 출력을 코드와 함께 살펴본다.

#sglang #Audio Models #Whisper #Qwen3-ASR #Speech Processing

2026년 4월 14일

[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화

Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.

#AI #Machine Learning #LLM #Whisper #Optimization #Performance #Inference

2026년 4월 12일

[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현

SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.

#sglang #ASR #Speech Recognition #Whisper #Transcription

2026년 4월 9일

[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석

Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.

#SGLang #Whisper #CUDA Graph #Performance Optimization #LLM

2026년 3월 28일

[논문리뷰] AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

이 논문은 오디오 처리 모델, 특히 Whisper 와 HuBERT 의 복잡한 내부 표현을 Sparse AutoEncoders (SAEs) 를 통해 이해하고 해석하는 것을 목표로 합니다.

#Review #Sparse Autoencoders (SAEs)#Audio Representation Learning #Model Interpretability #Whisper #HuBERT #Feature Steering #EEG Correlation #Audio Analysis

2026년 2월 8일

[논문리뷰] WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

본 논문은 Whisper 와 같은 사전 훈련된 최신 ASR(Automatic Speech Recognition) 모델이 미지의 도메인 어휘와 발화를 처리할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #ASR #Domain Adaptation #Text-Only Training #Transformer #Variational Autoencoder #Deep Supervision #Whisper #Encoder-Decoder Models

2025년 9월 22일