[llm-compressor] GPTQ Block Quantization 지원GPTQ 양자화에 block quantization을 추가하여 더 세밀한 양자화 그룹 분할과 품질 향상#llm-compressor#Performance2026년 3월 31일댓글 수 로딩 중
[llm-compressor] iMatrix Weighted MSE Observer - 중요도 행렬 기반 양자화Importance Matrix(iMatrix)를 활용한 가중 MSE observer로 중요 가중치의 양자화 정밀도를 우선 보존#llm-compressor#Performance2026년 3월 27일댓글 수 로딩 중
[llm-compressor] AWQ DDP - 분산 데이터 병렬 AWQ 양자화AWQ 양자화에 DDP(Distributed Data Parallel)를 적용하여 멀티 GPU에서 캘리브레이션 속도 향상#llm-compressor#Performance2026년 3월 18일댓글 수 로딩 중
[llm-compressor] Intermediates Cache Prefetch - 중간 결과 프리페칭양자화 캘리브레이션의 중간 결과를 프리페칭하여 레이어 순차 처리의 대기 시간을 감소#llm-compressor#Performance2026년 3월 17일댓글 수 로딩 중
[llm-compressor] DataLoader 최적화와 Single-pass Weight CalibrationDataLoader 옵션 확장과 단일 패스 가중치 캘리브레이션으로 양자화 파이프라인 속도와 유연성 개선#llm-compressor#Performance2026년 2월 18일댓글 수 로딩 중
[llm-compressor] Memoryless Observers - 메모리 효율적 가중치 관찰자양자화 캘리브레이션의 가중치 관찰자를 memoryless 방식으로 전환하여 메모리 사용량 대폭 감소#llm-compressor#Performance2026년 1월 19일댓글 수 로딩 중
[llm-compressor] Disable LM Head - 불필요한 LM Head 연산 비활성화양자화 캘리브레이션에서 LM Head 레이어의 forward pass를 비활성화하여 시간과 메모리 절약#llm-compressor#Performance2025년 12월 5일댓글 수 로딩 중