[vllm] [vLLM] GPU-CPU 동기화 병목 제거: prepare_chunk_indices 최적화 분석GDN Prefill 과정에서 발생하는 .tolist() 호출에 의한 GPU-CPU 동기화 병목을 제거하여 추론 효율성을 높인 사례를 분석합니다.#vLLM#CUDA#Performance-Optimization#Deep-Learning#Triton2026년 4월 3일댓글 수 로딩 중