[vllm] --max-model-len auto: GPU 메모리에 맞춘 자동 컨텍스트 길이 설정

2025년 12월 24일수정: 2025년 12월 24일

PR 링크: vllm-project/vllm#29431 상태: Merged | 변경: +315/-33

들어가며

모델의 최대 컨텍스트 길이를 적절히 설정하는 것은 GPU 메모리 활용의 핵심이다. 너무 크게 설정하면 OOM이 발생하고, 너무 작게 설정하면 메모리가 낭비된다. 이 PR은 --max-model-len auto (또는 -1)을 지원하여, 사용 가능한 GPU 메모리에 맞춰 최적의 컨텍스트 길이를 자동으로 결정한다.

핵심 코드 분석

CLI 파싱

# 'auto'와 -1 모두 지원
args = parser.parse_args(["--max-model-len", "-1"])
assert args.max_model_len == -1

args = parser.parse_args(["--max-model-len", "auto"])
assert args.max_model_len == -1

args = parser.parse_args(["--max-model-len", "AUTO"])
assert args.max_model_len == -1

자동 피팅 로직

# original_max_model_len이 -1이면 auto-fit 트리거
model_config.original_max_model_len = -1

# KV cache 설정 시 메모리에 맞춰 조정
# 사용 가능한 메모리로 몇 블록을 할당할 수 있는지 계산
# 블록 수 * 블록당 토큰 수 = 최대 컨텍스트 길이

메모리가 충분하면 모델의 원래 max_model_len을 유지하고, 부족하면 자동으로 줄인다. 이때 최소한의 KV cache 블록을 확보하여 동작은 보장한다.