[논문리뷰] The Price of Anarchy in Disaggregated Inference

2026년 6월 16일수정: 2026년 6월 16일

링크: 논문 PDF로 바로 열기

본 논문은 Disaggregated Inference 아키텍처에서 발생하는 자원 할당 및 요청 라우팅 문제를 게임 이론적 관점에서 분석하고, 시스템의 비효율성을 측정하는 Price of Anarchy (PoA) 프레임워크를 제안한다.

메타데이터

저자: Athos Georgiou, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Disaggregated Inference: 연산 집약적인 Prefill 단계와 메모리 대역폭 집약적인 Decode 단계를 물리적으로 분리하여 독립적으로 확장하는 아키텍처.
Price of Anarchy (PoA): 시스템 내 에이전트들의 이기적인 행동으로 인한 성능 저하 수준을 나타내는 지표로, 최악의 Nash Equilibrium 상태와 전역 최적 상태 간의 비용 비율.
NVIDIA Dynamo: 본 연구의 사례 연구 대상이 되는 Disaggregated Inference 생산 프레임워크로, Planner, Smart Router, KV Block Manager (KVBM) 등의 핵심 구성 요소를 포함함.
Coupled Games: Prefill-Decode 자원 배분, KV Cache 배치, 요청 라우팅이라는 세 가지 상호 의존적인 게임이 결합된 시스템적 상태.
Saturation: 시스템 자원이 한계에 도달하여 대기열이 급증하고 지연 시간이 초선형적(superlinear)으로 증가하는 임계 상태.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 연구는 Disaggregated Inference 시스템이 다수의 독립적인 에이전트(요청, 연산 풀, 캐시 블록)가 자원을 놓고 경쟁하는 복잡한 멀티 에이전트 시스템이라는 점에 주목한다. 기존의 Pareto Frontier 분석은 정적인 최적점을 찾는 데 유용하지만, 시스템이 과부하 상태(saturation)로 진입할 때 발생하는 동적인 성능 저하나 이기적인 라우팅으로 인한 비효율성을 설명하지 못한다. 저자들은 이러한 시스템 내부의 경쟁 관계를 명확히 하고, 자원 포화 시 발생하는 Queuing Cascades와 성능 저하를 방지하기 위한 체계적인 분석 틀이 필요하다고 주장한다. [Figure 1]

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 Dynamo 아키텍처 내의 세 가지 핵심 게임을 모델링하고, 이를 통해 PoA^widehat{PoA}라는 실증적 측정 지표를 제안한다 [Figure 1]. 이들은 시스템 상태를 Below Saturation과 At Saturation 두 영역으로 구분하여 분석하였다. 실험 결과, 포화 상태 이전에 비해 포화 상태에서는 이기적인 요청 라우팅으로 인해 시스템 효율성이 급격히 저하됨을 확인했다. 제안된 Adaptive Controller는 시스템의 포화 징후를 실시간으로 탐지하여, 기존의 캐시 선호형 라우팅에서 부하 분산형 라우팅으로 파라미터를 동적으로 전환한다 [Figure 2]. NVIDIA B200 클러스터 환경에서 Llama-3.1-70B 모델을 사용한 실험 결과, 70B 1P/5D 토폴로지에서 포화 단계의 PoA^widehat{PoA}가 3.1배(66.4 → 21.5) 감소하였으며, TTFT P99 지표 역시 유의미하게 개선되는 성능 우위를 입증하였다.

4. Conclusion & Impact (결론 및 시사점)

본 논문은 Disaggregated Inference 시스템의 성능 문제를 게임 이론적 PoA 분석을 통해 재정의하고, 이를 실시간 시스템 제어에 적용 가능한 형태로 구현하였다. 이 연구는 단순히 하드웨어 구성을 최적화하는 것을 넘어, 자원 포화 시 시스템이 어떻게 붕괴하는지에 대한 통찰을 제공한다. 본 연구에서 제안한 적응형 제어 전략은 차세대 고성능 LLM 서빙 시스템 설계에 있어 핵심적인 참고 모델이 될 것이며, 데이터센터 규모의 복잡한 자원 할당 문제를 해결하는 새로운 학술적 기준을 제시한다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Text-Vision Co-Instructed Image Editing
현재글 : [논문리뷰] The Price of Anarchy in Disaggregated Inference
다음글 [논문리뷰] Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification