[cpython] CPython 내부 최적화: Reference Stealing을 통한 Frame Locals 수집 속도 향상

2026년 6월 7일수정: 2026년 6월 7일

PR 링크: python/cpython#151002 상태: Merged | 변경: +6 / -6

들어가며

파이썬의 동적 특성을 지탱하는 핵심 요소 중 하나는 실행 시점의 상태를 조회할 수 있는 인트로스펙션(Introspection) 기능입니다. 그 중에서도 frame.f_locals는 현재 실행 중인 함수의 지역 변수들을 딕셔너리 형태로 제공하며, 디버거, 프로파일러, 그리고 locals() 내장 함수 등에서 광범위하게 사용됩니다.

최근 CPython 메인 저장소에 병합된 gh-150942 PR은 이 frame.f_locals.items() 호출 시 발생하는 불필요한 참조 횟수(Reference Count) 연산을 제거하여 전체적인 성능을 약 4% 가량 향상시켰습니다. 이번 글에서는 시니어 엔지니어의 관점에서 이 최적화가 왜 중요하며, 어떤 방식으로 구현되었는지 상세히 분석해 보겠습니다.

문제 상황: 불필요한 Reference Count의 왕복

기존의 CPython 코드는 프레임의 지역 변수들을 수집하여 리스트로 만들 때, 표준 C-API인 PyList_Append를 사용했습니다. 하지만 이 방식은 성능 민감한 루프 내에서 비효율적인 '참조 횟수 왕복(Reference-count round-trip)'을 발생시킵니다.

새로운 (name, value) 튜플(pair)을 생성합니다. (참조 횟수: 1)
PyList_Append를 호출하여 리스트에 추가합니다. 이 함수는 내부적으로 Py_INCREF를 호출하여 참조 횟수를 증가시킵니다. (참조 횟수: 2)
호출자(Caller)는 더 이상 pair 객체에 대한 직접적인 소유권이 필요 없으므로 Py_DECREF를 호출합니다. (참조 횟수: 1)

결과적으로 리스트에 객체를 넣기 위해 INCREF와 DECREF가 한 번씩 불필요하게 실행되는 구조였습니다. 수천 개의 지역 변수가 있는 프레임에서는 이 연산이 상당한 오버헤드로 작용합니다.

코드 분석: PyList_Append vs _PyList_AppendTakeRef

이번 PR의 핵심은 CPython 내부 API인 _PyList_AppendTakeRef를 도입한 것입니다. 이 함수는 이름에서 알 수 있듯이 객체의 참조를 '훔쳐오는(Steal)' 방식을 취합니다.

Objects/frameobject.c 변경 사항

실제 코드의 변화를 살펴보면 최적화의 의도가 명확히 드러납니다.

Before

// 기존 방식: Append 후 직접 DECREF 관리
PyObject *pair = PyTuple_Pack(2, name, value);
if (pair == NULL) {
    goto error;
}

int rc = PyList_Append(items, pair);
Py_DECREF(pair); // 여기서 불필요한 DECREF 발생
if (rc < 0) {
    goto error;
}

After

// 개선된 방식: _PyList_AppendTakeRef 사용
PyObject *pair = PyTuple_Pack(2, name, value);
if (pair == NULL) {
    goto error;
}

// pair의 참조를 리스트가 직접 '가져감' (INCREF/DECREF 생략)
if (_PyList_AppendTakeRef((PyListObject *)items, pair) < 0) {
    goto error;
}

이 변경을 위해 pycore_list.h 헤더가 추가되었으며, _PyList_AppendTakeRef를 통해 pair 객체의 소유권을 리스트로 즉시 이전합니다. 이로 인해 루프당 한 쌍의 INCREF/DECREF 연산이 완전히 제거되었습니다.

왜 이게 좋은 최적화인가?

1. 성능 벤치마크 결과

단순한 참조 횟수 연산 제거임에도 불구하고, 마이크로 벤치마크 결과는 유의미한 차이를 보여줍니다.

Benchmark	main	this PR	speedup
`frame_locals_items_100locals`	9.09 ms	8.61 ms	1.06x
`frame_locals_items_1000locals`	17.19 ms	16.59 ms	1.04x
`frame_locals_items_5000locals`	29.92 ms	28.94 ms	1.03x
Geometric Mean			1.04x

지역 변수가 100개인 경우 약 6%의 성능 향상이 있었으며, 전체적으로 평균 4%의 속도 개선이 확인되었습니다. 파이썬처럼 대규모 코드베이스에서 단일 함수 변경으로 4%의 성능을 끌어올리는 것은 매우 효율적인 최적화입니다.

2. CPU 캐시 및 파이프라인 효율성

참조 횟수 연산(Py_INCREF, Py_DECREF)은 단순히 숫자 하나를 바꾸는 작업이 아닙니다. 현대의 CPU 아키텍처에서 이 작업은 메모리 쓰기 연산을 동반하며, 멀티코어 환경에서는 캐시 일관성(Cache Coherency) 유지를 위한 비용이 발생할 수 있습니다. 특히 _PyList_AppendTakeRef와 같은 내부 API를 사용하면 함수 호출 오버헤드를 줄이고 컴파일러가 더 나은 최적화를 수행할 수 있는 여지를 제공합니다.

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [sglang] SGLang의 Ideogram4 추론 성능 최적화: Denoising 루프 내 오버헤드 제거
현재글 : [cpython] CPython 내부 최적화: Reference Stealing을 통한 Frame Locals 수집 속도 향상
다음글 [cpython] Python re 모듈의 findall, sub, subn 성능 개선: PyList_AppendTakeRef 도입