#neural-magic

1개의 포스트

[vLLM] Compressed Tensors: 양자화+희소성 통합 프레임워크

Neural Magic의 Compressed Tensors 프레임워크가 vLLM에서 어떻게 통합되는지 분석한다. W8A8, W4A16, 2:4 희소성까지 하나의 추상화로 처리하는 구조.

#vllm #quantization #compressed-tensors #sparsity #neural-magic

2026년 4월 7일