[cpython] Python 3.14 내부 최적화: 가변 인자 Opcode의 스택 관리 개선

2026년 4월 11일수정: 2026년 4월 11일

PR 링크: python/cpython#148366 상태: Merged | 변경: +None / -None

들어가며

최근 CPython 메인라인에 병합된 gh-148171 PR은 Python 인터프리터의 핵심 실행 루프(ceval) 내에서 가변 인자를 처리하는 방식에 중요한 변화를 가져왔습니다.

기존에는 CALL_BUILTIN_FAST_WITH_KEYWORDS와 같은 가변 인자 옵코드가 실행될 때, 함수 호출 직후 스택에서 인자들을 즉시 제거(Pop)하고 결과값만 남기는 방식을 취했습니다. 하지만 이러한 방식은 함수 호출 중 에러가 발생했을 때 스택 상태를 복구하거나, Tier 2 최적화(uops) 단계에서 명령어를 세분화할 때 오버헤드를 발생시킵니다.

이번 개선의 핵심은 "인자를 스택에 그대로 두고, 호출이 성공한 후에 명시적으로 제거하자"는 철학입니다. 이를 통해 에러 처리 로직이 단순해지고, 마이크로 옵코드(uops) 확장이 더욱 유연해졌습니다.

코드 분석: 무엇이 바뀌었나?

1. 함수 시그니처의 변화: Steal에서 Borrow로

가장 먼저 눈에 띄는 변화는 내부 호출 함수의 이름과 동작 방식입니다.

Before:

PyAPI_FUNC(PyObject *)
_Py_BuiltinCallFastWithKeywords_StackRefSteal(
    _PyStackRef callable,
    _PyStackRef *arguments,
    int total_args);

After:

PyAPI_FUNC(PyObject *)
_Py_BuiltinCallFastWithKeywords_StackRef(
    _PyStackRef callable,
    _PyStackRef *arguments,
    int total_args);

Steal 접미사가 제거되었습니다. 이전에는 함수가 인자의 소유권을 가져가서(Steal) 처리했지만, 이제는 단순히 참조만 하여 호출을 수행합니다. 이는 스택에 인자가 여전히 유효하게 남아있음을 의미합니다.

2. Opcode 메타데이터 및 매크로 확장

CALL_BUILTIN_FAST_WITH_KEYWORDS 옵코드가 어떻게 확장되는지 살펴보면 이번 최적화의 의도가 명확히 드러납니다.

Before (pycore_opcode_metadata.h):

[CALL_BUILTIN_FAST_WITH_KEYWORDS] = { .nuops = 4, .uops = { 
    { _RECORD_CALLABLE, ... }, 
    { _GUARD_CALLABLE_BUILTIN_FAST_WITH_KEYWORDS, ... }, 
    { _CALL_BUILTIN_FAST_WITH_KEYWORDS, ... }, 
    { _CHECK_PERIODIC_AT_END, ... } 
} },

After (pycore_opcode_metadata.h):

[CALL_BUILTIN_FAST_WITH_KEYWORDS] = { .nuops = 6, .uops = { 
    { _RECORD_CALLABLE, ... }, 
    { _GUARD_CALLABLE_BUILTIN_FAST_WITH_KEYWORDS, ... }, 
    { _CALL_BUILTIN_FAST_WITH_KEYWORDS, ... }, 
    { _POP_TOP_OPARG, ... }, // 추가
    { _POP_TOP, ... },       // 추가
    { _CHECK_PERIODIC_AT_END, ... } 
} },

기존에는 _CALL_BUILTIN_FAST_WITH_KEYWORDS 내부에서 스택 정리를 한꺼번에 처리했으나, 이제는 호출 자체는 호출만 담당하고, 이후 _POP_TOP_OPARG와 _POP_TOP이라는 별도의 마이크로 옵코드를 통해 스택을 정리합니다.

3. 바이트코드 정의의 변화 (bytecodes.c)

실제 동작을 정의하는 bytecodes.c를 보면 스택 포인터 조작 방식의 변화가 극명합니다.

After:

op(_CALL_BUILTIN_FAST_WITH_KEYWORDS, (callable, self_or_null, args[oparg] -- callable, self_or_null, args[oparg])) {
    // ... 호출 로직 ...
    PyObject *res_o = _Py_BuiltinCallFastWithKeywords_StackRef(callable, arguments, total_args);
    
    if (res_o == NULL) { 
        ERROR_IF(true); // 에러 시 스택을 건드리지 않고 그대로 에러 핸들러로 점프
    }
    
    // 성공 시 결과값을 스택의 callable 위치에 덮어씀
    _PyStackRef temp = callable;
    callable = PyStackRef_FromPyObjectSteal(res_o);
    stack_pointer[-2 - oparg] = callable;
    PyStackRef_CLOSE(temp);
}

이전 코드(Steal 방식)에서는 에러 발생 시 이미 인자들이 스택에서 사라질 준비를 하고 있었기 때문에 복구가 복잡했습니다. 변경된 코드에서는 에러가 나면 스택 포인터를 별도로 되돌릴 필요 없이 그대로 에러 처리를 수행하면 됩니다.

왜 이게 좋은 최적화인가?

에러 처리의 단순화 (Error Handling Robustness): HAS_ERROR_NO_POP_FLAG가 추가된 것에서 알 수 있듯이, 함수 호출 중 예외가 발생했을 때 인터프리터는 스택을 청소할 필요가 없습니다. 인자들이 그대로 스택에 남아있기 때문에, 예외 핸들러가 현재 스택 상태를 기반으로 정확한 트레이스백을 생성하거나 상태를 복구하기가 훨씬 수월해집니다.
명령어 세분화 (Instruction Atomicity): 하나의 거대한 옵코드를 여러 개의 작은 uops로 쪼개는 것은 JIT 컴파일러(Tier 2) 최적화의 핵심입니다. 호출(CALL)과 정리(POP)를 분리함으로써, JIT 컴파일러는 호출 이후의 스택 정리 과정을 다른 명령어와 병합하거나 최적화할 수 있는 기회를 얻게 됩니다.
일관성 유지: 이미 CALL_BUILTIN_FAST 등 다른 옵코드들은 이와 유사한 방식으로 최적화되어 있었습니다. 이번 PR은 키워드 인자가 포함된 호출까지 이 패턴을 확장하여 인터프리터 내부 로직의 일관성을 높였습니다.

결론

이번 변경사항은 사용자 수준의 Python 코드 실행 속도를 비약적으로 높이는 마법은 아닐지 모릅니다. 하지만 CPython 내부 구조를 더욱 견고하고 최적화하기 좋게 만드는 중요한 인프라 작업입니다. 특히 Python 3.13부터 도입된 JIT 컴파일러의 성능을 극대화하기 위해서는 이와 같이 옵코드를 원자적(Atomic)으로 쪼개는 작업이 필수적입니다.

리뷰 과정에서 test_opt.py의 불필요한 테스트 케이스를 제거하라는 피드백이 반영된 것처럼, 핵심 로직의 변화에 맞춰 테스트 코드 또한 간결하게 유지하려는 노력이 돋보이는 PR이었습니다.

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입
현재글 : [cpython] Python 3.14 내부 최적화: 가변 인자 Opcode의 스택 관리 개선
다음글 [cpython] CPython JIT 최적화: _POP_TWO/_POP_CALL 연산 분해를 통한 성능 향상