[논문리뷰] Duration Aware Scheduling for ASR Serving Under Workload Drift

2026년 6월 18일수정: 2026년 6월 18일

링크: 논문 PDF로 바로 열기

저자: Darshan Makwana, Yash Jogi, Harsh Kotta, Aayush Kubba

1. Key Terms & Definitions (핵심 용어 및 정의)

FCFS (First-Come-First-Served): 도착한 순서대로 요청을 처리하는 표준 스케줄링 방식으로, 요청 시간의 변동성이 클 경우 Head-of-Line blocking을 유발함.
E2E Latency (End-to-End Latency): 요청 도착부터 최종 transcription 완료까지 소요되는 전체 시간으로, ASR 서비스의 핵심 품질 지표임.
SJF (Shortest Job First): 요청을 추정된 작업 길이에 따라 오름차순으로 우선순위를 부여하여 평균 대기 시간을 최소화하는 방식.
HRRN (Highest Response Ratio Next): 대기 시간과 작업 길이를 모두 고려하여 응답 비율을 계산하고, 이를 기반으로 스케줄링하여 SJF의 장기 작업 기아(Starvation) 문제를 완화함.
Workload Drift: 요청 분포나 부하의 변화를 의미하며, 논문에서는 특히 다양한 오디오 길이 분포가 성능에 미치는 영향을 의미함.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 대규모 ASR 시스템에서 FCFS 기반 스케줄링이 작업 시간의 가변성을 고려하지 못해 발생하는 비효율성 문제를 해결한다. 기존의 vLLM과 같은 서빙 엔진들은 입력을 순차적으로 처리하므로, 긴 오디오 요청이 짧은 요청들을 가로막는 Head-of-Line blocking 현상이 빈번하게 발생한다. 특히 부하가 높거나 오디오 길이 분포가 불균일할 때 E2E Latency가 크게 증가하는 문제가 있다 [Figure 1]. 이러한 한계로 인해, 저자들은 오디오 길이를 작업 처리 시간의 대리 지표로 활용하여 더욱 최적화된 스케줄링 정책을 도입하고자 한다.

Figure 1: FCFS의 Head-of-line blocking 예시

Figure 1 — FCFS의 Head-of-line blocking 예시

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 연구는 Whisper 모델의 처리 시간과 입력 오디오 시간 사이의 선형적 상관관계를 입증하고, 이를 활용한 SJF 및 HRRN 기반의 스케줄링 알고리즘을 제안한다 [Figure 2]. 제안된 알고리즘은 오디오 길이를 기반으로 스케줄링 우선순위를 실시간으로 재조정하며, vLLM 엔진에 최소한의 오버헤드로 통합되었다. LibriSpeech 데이터셋을 이용한 실험 결과, SJF는 높은 부하 환경에서 FCFS 대비 중간(median) E2E Latency를 최대 73%까지 감소시켰다 [Table 1], [Figure 3]. HRRN은 SJF가 유발할 수 있는 긴 작업의 기아 문제를 효과적으로 제어하여, 중간 E2E Latency를 28% 개선함과 동시에 P90 tail latency 악화를 최대 24% 수준으로 제한하였다. 또한 모든 정책에서 오버헤드는 요청당 0.1ms 미만으로 측정되어 처리량(Throughput) 저하가 거의 발생하지 않았다 [Figure 7].

Figure 2: 오디오 시간과 토큰 수의 상관관계

Figure 2 — 오디오 시간과 토큰 수의 상관관계

Figure 7: 스케줄링 정책별 요청 처리량 비교

Figure 7 — 스케줄링 정책별 요청 처리량 비교

4. Conclusion & Impact (결론 및 시사점)

본 논문은 오디오 기반의 ASR 서빙 환경에서 duration-aware 스케줄링 정책이 사용자 체감 Latency를 획기적으로 개선할 수 있음을 입증하였다. 특히 SJF와 HRRN은 복잡한 예측 모델 없이도 매우 단순하고 효과적으로 구현 가능한 대안임을 보여주었다. 이 연구는 생산 환경의 ASR 파이프라인에서 발생하는 Workload Drift에 대응하는 효율적인 레버를 제공하며, 실시간 음성 서비스의 반응성을 개선하는 데 실질적인 기여를 한다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects
현재글 : [논문리뷰] Duration Aware Scheduling for ASR Serving Under Workload Drift
다음글 [논문리뷰] ENPIRE: Agentic Robot Policy Self-Improvement in the Real World