[vllm] vLLM Qwen3.5 GDN 최적화: `einops.rearrange`를 `torch.flatten`으로 교체하여 20배 성능 향상!vLLM에서 Qwen3.5 GDN 레이어의 `einops.rearrange`를 `torch.flatten`으로 교체하여 Python 오버헤드를 줄이고 최대 21배의 속도 향상을 달성한 최적화 사례.#vLLM#PyTorch#Optimization#Performance#DeepLearning#Qwen3.5#einops#flatten2026년 5월 18일댓글 수 로딩 중