[sglang] PD 시나리오에서 상세 캐시 히트 분류 수정

2026년 4월 2일수정: 2026년 4월 2일

PR 링크: sgl-project/sglang#21764 상태: Merged | 변경: +16 / -8

들어가며

SGLang의 Prefill-Decode(PD) disaggregation 환경에서 캐시 히트 통계가 device/host/storage 레벨로 세분화되어 보고되어야 한다. 그러나 기존 코드에서는 decode 노드가 prefill 노드로부터 cached_tokens 메타데이터를 전달받을 때 device/host/storage 세부 정보가 누락되었다. 또한 HiCache가 비활성화된 환경에서도 기본 캐시 히트 정보를 보여줄 수 있도록 개선되었다.

핵심 코드 분석

1. PD 메타데이터 전달 수정

Before:

# decode.py - transfer commit 시
decode_req.req.cached_tokens = cached_tokens[0].item()
# device, host, storage 정보 누락

After:

decode_req.req.cached_tokens = cached_tokens[0].item()
decode_req.req.cached_tokens_device = cached_tokens[1].item()
decode_req.req.cached_tokens_host = cached_tokens[2].item()
decode_req.req.cached_tokens_storage = cached_tokens[3].item()

cached_tokens 텐서의 인덱스 1~3에 저장된 device/host/storage 정보를 개별 필드에 저장한다.

2. 비-HiCache 환경에서도 상세 정보 제공

Before:

def _get_cached_tokens_details(self, req):
    # HiCache가 비활성화되면 None 반환
    if not getattr(self, "enable_hierarchical_cache", False):
        return None

After:

def _get_cached_tokens_details(self, req):
    if req.cached_tokens_device > 0 or req.cached_tokens_host > 0 or ...:
        details = {"device": req.cached_tokens_device, "host": req.cached_tokens_host}
        if req.cached_tokens_storage > 0:
            details["storage"] = req.cached_tokens_storage
        return details

    # HiCache 없이도 기본 캐시 히트 정보 제공
    if req.cached_tokens > 0:
        return {"device": req.cached_tokens, "host": 0}
    return None