[SGLang] TestQwen35WithHiCache CI 테스트 분리 및 수정

2026년 3월 25일수정: 2026년 3월 25일

PR 링크: sgl-project/sglang#21371 상태: Merged | 변경: +128 / -103

들어가며

Qwen3.5-27B 모델의 HiCache 테스트(TestQwen35WithHiCache)가 FP4 모델 테스트와 같은 파일에 있어서 CI에서 충돌이 발생했다. FP4 테스트는 B200 GPU suite에 등록되어 있고, HiCache 테스트는 H100 suite에서 돌아야 하는데 하나의 파일로 묶여 있어 suite 분리가 불가능했다.

이 PR은 TestQwen35WithHiCache를 별도 파일로 추출하고, max_tokens를 4000에서 16000으로 올려 reasoning 모델의 긴 출력에 대응한다.

핵심 코드 분석

파일 분리

Before: 하나의 파일 test_qwen35_models.py에 FP4 + HiCache 테스트가 공존

# test_qwen35_models.py
register_cuda_ci(est_time=1400, suite="stage-c-test-4-gpu-b200")

class TestQwen35FP4(unittest.TestCase): ...
class TestQwen35WithHiCache(CustomTestCase): ...

After: HiCache 테스트를 별도 파일로 분리

# test_qwen35_hicache.py (새 파일)
register_cuda_ci(est_time=600, suite="stage-c-test-4-gpu-h100")

class TestQwen35WithHiCache(CustomTestCase):
    ...
    def _run_gsm8k(self):
        args = SimpleNamespace(
            ...
            max_tokens=16000,  # 4000 -> 16000
            ...
        )

max_tokens 증가 이유

Qwen3.5는 reasoning parser(--reasoning-parser qwen3)를 사용하는데, CoT(Chain-of-Thought) 출력이 길어 4000 토큰으로는 gsm8k 문제의 정답까지 도달하지 못하는 경우가 있었다. 16000으로 늘려 CI 정확도 변동을 줄였다.