[vLLM] Compressed Tensors: 양자화+희소성 통합 프레임워크Neural Magic의 Compressed Tensors 프레임워크가 vLLM에서 어떻게 통합되는지 분석한다. W8A8, W4A16, 2:4 희소성까지 하나의 추상화로 처리하는 구조.#vllm#quantization#compressed-tensors#sparsity#neural-magic2026년 4월 7일댓글 수 로딩 중