[논문리뷰] TurboServe: Serving Streaming Video Generation Efficiently and Economically

2026년 7월 1일수정: 2026년 7월 1일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Youhe Jiang, Haoxu Wang, Haotong Bao, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Streaming Video Generation: 전통적인 offline/one-shot 방식과 달리, 사용자의 인터랙션에 따라 chunk 단위로 비디오를 생성하고 지속적으로 전송하는 stateful 워크로드입니다.
Session Duration Heterogeneity: 스트리밍 세션의 수명이 매우 다양하며, 이는 장기 실행 세션이 누적됨에 따라 고정된 placement 정책을 suboptimal하게 만드는 원인이 됩니다.
Coalesced Chunk Processing: 동일한 GPU 상에서 다수의 활성 세션을 batching하여 모델 실행 효율을 높이는 동시에, 각 세션의 state를 독립적으로 유지하는 기법입니다.
Closed-Loop Scheduling: placement controller와 autoscaling controller를 연동하여, migration-aware한 rebalancing과 load-driven autoscaling을 실시간으로 수행하는 통합 프레임워크입니다.
GPU-CPU Offloading: idle 상태인 세션의 state를 host memory로 이동시켜 GPU 자원을 확보하고, 필요 시 다시 복구하는 매커니즘입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 스트리밍 비디오 생성 워크로드에서 발생하는 세션의 상태 유지와 동적 자원 수요라는 이중 과제를 해결하기 위해 TurboServe를 제안한다. 기존의 LLM serving이나 one-shot 생성 모델 서빙 시스템은 세션을 stateless하게 처리하도록 설계되어, 세션 간 상태 보존이 필수적인 스트리밍 환경에서는 심각한 효율성 저하를 겪는다 [Figure 1]. 특히, 세션 지속 시간의 불균형(Session duration heterogeneity)은 부하 분산을 방해하며, 사용자 수요의 시간적 불균형(Temporal user-demand heterogeneity)은 고정된 GPU 할당 환경에서 자원 낭비와 latency 급증을 초래한다 [Figure 2]. 따라서, placement와 autoscaling을 독립적으로 관리하는 방식 대신, 이 둘을 긴밀하게 결합한 폐쇄 루프(closed-loop) 제어 시스템이 필수적이다.

Figure 1: Stateless와 Stateful 세션 비교

Figure 1 — Stateless와 Stateful 세션 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 스트리밍 비디오 생성을 online scheduling 문제로 정의하고, TurboServe를 통해 실시간으로 session placement와 GPU provisioning을 최적화한다 [Figure 5]. placement controller는 migration-aware min-max rebalancing을 통해 병목 GPU의 부하를 줄여 최악의 per-chunk latency를 개선하며, autoscaling controller는 load feedback을 기반으로 GPU Budget을 elastic하게 조정한다 [Figure 6]. 이러한 제어 로직은 세션의 활성/유휴 전환에 따라 실시간으로 동작하며, 대규모 클러스터에서의 효율성을 극대화한다. 실험 결과, TurboServe는 기존 baseline 대비 worst-case per-chunk latency를 37.5% 감소시켰으며, 총 GPU 운영 비용을 37.2% 절감하는 성과를 거두었다. 이 수치는 64개의 NVIDIA B300 GPU 환경에서 실제 프로덕션 트레이스를 통해 검증된 정량적 지표이다. 특히, migration과 autoscaling의 결합은 독립적인 policy 적용보다 latency와 비용 측면에서 더 우수한 성능을 보였다 [Figure 4].

Figure 4: 정책별 latency 및 비용 비교

Figure 4 — 정책별 latency 및 비용 비교

Figure 5: TurboServe 아키텍처 개요

Figure 5 — TurboServe 아키텍처 개요

4. Conclusion & Impact (결론 및 시사점)

본 연구는 최초로 스트리밍 비디오 생성 전용 서빙 프레임워크인 TurboServe를 제안하여, 복잡한 stateful 워크로드에서의 자원 효율성과 latency 안정성을 동시에 확보하였다. 제안된 시스템은 단순한 heuristic 기반의 할당을 넘어, migration cost와 GPU 효율성을 고려한 closed-loop 제어를 통해 동적 워크로드 환경에서의 실시간 생성 서비스가 갖추어야 할 핵심 인프라를 제시했다. 본 연구의 결과는 향후 대규모 interactive AI 서비스가 latency에 민감하면서도 경제적인 운영을 가능하게 하는 기술적 표준이 될 것으로 기대된다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] The State-Prediction Separation Hypothesis
현재글 : [논문리뷰] TurboServe: Serving Streaming Video Generation Efficiently and Economically
다음글 [논문리뷰] Valdi: Value Diffusion World Models