llm-compressor

[llm-compressor] Sentinel & Typing: 센티넬 객체와 타입 별칭

sentinel.py의 Sentinel 클래스가 '기본값과 명시적 None 구분'을 해결하는 방법과 typing.py의 프로젝트 공통 타입 별칭 분석

#llm-compressor #Sentinel #Typing

2026년 4월 13일

[llm-compressor] PyTorch Utils: 희소화 통계와 모듈 헬퍼

pytorch/utils와 utils/pytorch 디렉토리의 sparsification_info, module.py 헬퍼가 제공하는 공통 PyTorch 유틸리티 분석

#llm-compressor #PyTorch #Utils

2026년 4월 13일

[llm-compressor] Dataset Calibration: c4/wikitext/ultrachat 로더

datasets 디렉토리와 transformers/data 디렉토리가 캘리브레이션 데이터셋을 로딩하고 토크나이즈하는 구조 분석

#llm-compressor #Dataset #Calibration

2026년 4월 13일

[llm-compressor] Modeling Overrides: DeepSeek/Llama4/Qwen3 등 모델별 패치

modeling 디렉토리가 DeepSeek-V3, Llama-4, Qwen3-MoE, GPT-OSS 등 특수 아키텍처를 llm-compressor에 맞춰 override하는 구조 분석

#llm-compressor #Modeling #MoE #Override

2026년 4월 13일

[llm-compressor] Compression Save: compressed-tensors 체크포인트 저장

transformers/compression 디렉토리가 압축된 모델을 compressed-tensors 포맷으로 직렬화해 vLLM/SGLang이 로딩 가능하도록 만드는 구조 분석

#llm-compressor #Compression #Save #compressed-tensors

2026년 4월 13일

[llm-compressor] Transformers Tracing: 모델 그래프 추적과 부분 forward

transformers/tracing 디렉토리의 debug.py가 HuggingFace 모델을 torch.fx로 추적해 서브그래프 분할을 가능하게 하는 구조 분석

#llm-compressor #Tracing #HuggingFace #FX

2026년 4월 13일

[llm-compressor] iMatrix Transform: 중요도 행렬 기반 가중치 리스케일

IMatrixGatherer Modifier가 입력 활성화의 E[x^2]를 수집해 가중치를 리스케일하는 구조 분석

#llm-compressor #iMatrix #Transform

2026년 4월 13일

[llm-compressor] SpinQuant: 학습된 회전 행렬 기반 양자화

SpinQuant 논문의 4가지 회전(R1/R2/R3/R4)과 Cayley SGD 기반 학습 방법, llm-compressor의 mappings/norm_mappings 구현 분석

#llm-compressor #SpinQuant #Quantization #Rotation

2026년 4월 13일

[llm-compressor] QuIP: 랜덤 직교 변환 기반 2비트 양자화

QuIP 논문의 incoherence processing 아이디어와 llm-compressor에서 랜덤 아다마르/직교 행렬로 2비트 양자화를 가능하게 만드는 구현 분석

#llm-compressor #QuIP #Quantization #2bit

2026년 4월 13일

[llm-compressor] Transform Overview: 가중치 회전/변환 기반 Modifier 계열

llm-compressor의 transform 계열(QuIP/SpinQuant/iMatrix/SmoothQuant transform)이 공유하는 '가중치 변환 후 양자화' 패턴 분석

#llm-compressor #Transform #Overview

2026년 4월 13일

[llm-compressor] Magnitude Pruning: 크기 기반과 상수 희소성 Modifier

MagnitudePruningModifier가 가중치 크기만으로 pruning을 수행하는 data-free 구조와, ConstantPruningModifier가 기존 마스크를 유지하는 방식 분석

#llm-compressor #Pruning #Magnitude

2026년 4월 13일

[llm-compressor] Wanda: 활성화 가중 노름 기반 가지치기

Wanda 논문의 |W| * ||X||_2 중요도 공식이 llm-compressor에서 어떻게 구현되는지, SparseGPT와의 비교 분석

#llm-compressor #Wanda #Pruning

2026년 4월 13일

[llm-compressor] SparseGPT: 원샷 LLM 가지치기 구현

SparseGPT 논문의 OBS 기반 가지치기가 llm-compressor에서 어떻게 구현되는지, Hessian 누적과 2:4 sparsity 마스크 생성 분석

#llm-compressor #SparseGPT #Pruning

2026년 4월 13일

[llm-compressor] Pruning Overview: OBCQ 계열 Modifier 구조

llm-compressor의 pruning/obcq 계층이 SparseGPT/Wanda/Magnitude Pruning을 어떻게 공통 베이스로 추상화하는지 분석

#llm-compressor #Pruning #Overview

2026년 4월 13일

[llm-compressor] Logarithmic Equalization: 로그 스케일 채널 균등화

LogEqualizationModifier가 채널 간 가중치 분포 편차를 로그 스케일로 균등화해 양자화 친화적 분포를 만드는 원리와 구현 분석

#llm-compressor #LogEqualization #Quantization

2026년 4월 13일

[llm-compressor] AutoRound: 부호 경사 하강법으로 라운딩 최적화

AutoRound 논문의 SignSGD 기반 rounding 최적화가 llm-compressor에서 어떻게 구현되는지, nsamples/iters/seqlen 파라미터 분석

#llm-compressor #AutoRound #Quantization #PTQ

2026년 4월 13일

[llm-compressor] SmoothQuant: 활성화→가중치 양자화 난이도 이동

SmoothQuant 논문의 activation smoothing 기법이 llm-compressor에서 어떻게 구현되어 있고, per-channel scale 결정과 RMSNorm 흡수 방식 분석

#llm-compressor #SmoothQuant #Quantization #W8A8

2026년 4월 13일

[llm-compressor] AWQ: 활성화 인식 가중치 양자화 구현

AWQ 논문의 salient weight 스케일링 아이디어가 llm-compressor에서 mappings와 dynamic_mappings를 통해 어떻게 구현되는지 분석

#llm-compressor #AWQ #Quantization #PTQ

2026년 4월 13일

[llm-compressor] GPTQ: 2차 정보 기반 후훈련 양자화 구현

GPTQ 논문의 Hessian 기반 양자화가 llm-compressor에 어떻게 구현되어 있는지, block_size/dampening_frac/actorder 파라미터와 sequential epoch 종료 시 quantize_weight 호출 구조 분석

#llm-compressor #GPTQ #Quantization #PTQ

2026년 4월 13일

[llm-compressor] Group Size Validation: 그룹 크기 호환성 검사

group_size_validation.py의 validate_group_size 함수가 레이어 shape과 group_size의 호환성을 검증하고 에러 메시지를 제공하는 구조 분석

#llm-compressor #Quantization #Validation

2026년 4월 13일