[llm-compressor] Sentinel & Typing: 센티넬 객체와 타입 별칭sentinel.py의 Sentinel 클래스가 '기본값과 명시적 None 구분'을 해결하는 방법과 typing.py의 프로젝트 공통 타입 별칭 분석#llm-compressor#Sentinel#Typing2026년 4월 13일댓글 수 로딩 중
[llm-compressor] PyTorch Utils: 희소화 통계와 모듈 헬퍼pytorch/utils와 utils/pytorch 디렉토리의 sparsification_info, module.py 헬퍼가 제공하는 공통 PyTorch 유틸리티 분석#llm-compressor#PyTorch#Utils2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Dataset Calibration: c4/wikitext/ultrachat 로더datasets 디렉토리와 transformers/data 디렉토리가 캘리브레이션 데이터셋을 로딩하고 토크나이즈하는 구조 분석#llm-compressor#Dataset#Calibration2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Modeling Overrides: DeepSeek/Llama4/Qwen3 등 모델별 패치modeling 디렉토리가 DeepSeek-V3, Llama-4, Qwen3-MoE, GPT-OSS 등 특수 아키텍처를 llm-compressor에 맞춰 override하는 구조 분석#llm-compressor#Modeling#MoE#Override2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Compression Save: compressed-tensors 체크포인트 저장transformers/compression 디렉토리가 압축된 모델을 compressed-tensors 포맷으로 직렬화해 vLLM/SGLang이 로딩 가능하도록 만드는 구조 분석#llm-compressor#Compression#Save#compressed-tensors2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Transformers Tracing: 모델 그래프 추적과 부분 forwardtransformers/tracing 디렉토리의 debug.py가 HuggingFace 모델을 torch.fx로 추적해 서브그래프 분할을 가능하게 하는 구조 분석#llm-compressor#Tracing#HuggingFace#FX2026년 4월 13일댓글 수 로딩 중
[llm-compressor] iMatrix Transform: 중요도 행렬 기반 가중치 리스케일IMatrixGatherer Modifier가 입력 활성화의 E[x^2]를 수집해 가중치를 리스케일하는 구조 분석#llm-compressor#iMatrix#Transform2026년 4월 13일댓글 수 로딩 중
[llm-compressor] SpinQuant: 학습된 회전 행렬 기반 양자화SpinQuant 논문의 4가지 회전(R1/R2/R3/R4)과 Cayley SGD 기반 학습 방법, llm-compressor의 mappings/norm_mappings 구현 분석#llm-compressor#SpinQuant#Quantization#Rotation2026년 4월 13일댓글 수 로딩 중
[llm-compressor] QuIP: 랜덤 직교 변환 기반 2비트 양자화QuIP 논문의 incoherence processing 아이디어와 llm-compressor에서 랜덤 아다마르/직교 행렬로 2비트 양자화를 가능하게 만드는 구현 분석#llm-compressor#QuIP#Quantization#2bit2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Transform Overview: 가중치 회전/변환 기반 Modifier 계열llm-compressor의 transform 계열(QuIP/SpinQuant/iMatrix/SmoothQuant transform)이 공유하는 '가중치 변환 후 양자화' 패턴 분석#llm-compressor#Transform#Overview2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Magnitude Pruning: 크기 기반과 상수 희소성 ModifierMagnitudePruningModifier가 가중치 크기만으로 pruning을 수행하는 data-free 구조와, ConstantPruningModifier가 기존 마스크를 유지하는 방식 분석#llm-compressor#Pruning#Magnitude2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Wanda: 활성화 가중 노름 기반 가지치기Wanda 논문의 |W| * ||X||_2 중요도 공식이 llm-compressor에서 어떻게 구현되는지, SparseGPT와의 비교 분석#llm-compressor#Wanda#Pruning2026년 4월 13일댓글 수 로딩 중
[llm-compressor] SparseGPT: 원샷 LLM 가지치기 구현SparseGPT 논문의 OBS 기반 가지치기가 llm-compressor에서 어떻게 구현되는지, Hessian 누적과 2:4 sparsity 마스크 생성 분석#llm-compressor#SparseGPT#Pruning2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Pruning Overview: OBCQ 계열 Modifier 구조llm-compressor의 pruning/obcq 계층이 SparseGPT/Wanda/Magnitude Pruning을 어떻게 공통 베이스로 추상화하는지 분석#llm-compressor#Pruning#Overview2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Logarithmic Equalization: 로그 스케일 채널 균등화LogEqualizationModifier가 채널 간 가중치 분포 편차를 로그 스케일로 균등화해 양자화 친화적 분포를 만드는 원리와 구현 분석#llm-compressor#LogEqualization#Quantization2026년 4월 13일댓글 수 로딩 중
[llm-compressor] AutoRound: 부호 경사 하강법으로 라운딩 최적화AutoRound 논문의 SignSGD 기반 rounding 최적화가 llm-compressor에서 어떻게 구현되는지, nsamples/iters/seqlen 파라미터 분석#llm-compressor#AutoRound#Quantization#PTQ2026년 4월 13일댓글 수 로딩 중
[llm-compressor] SmoothQuant: 활성화→가중치 양자화 난이도 이동SmoothQuant 논문의 activation smoothing 기법이 llm-compressor에서 어떻게 구현되어 있고, per-channel scale 결정과 RMSNorm 흡수 방식 분석#llm-compressor#SmoothQuant#Quantization#W8A82026년 4월 13일댓글 수 로딩 중
[llm-compressor] AWQ: 활성화 인식 가중치 양자화 구현AWQ 논문의 salient weight 스케일링 아이디어가 llm-compressor에서 mappings와 dynamic_mappings를 통해 어떻게 구현되는지 분석#llm-compressor#AWQ#Quantization#PTQ2026년 4월 13일댓글 수 로딩 중
[llm-compressor] GPTQ: 2차 정보 기반 후훈련 양자화 구현GPTQ 논문의 Hessian 기반 양자화가 llm-compressor에 어떻게 구현되어 있는지, block_size/dampening_frac/actorder 파라미터와 sequential epoch 종료 시 quantize_weight 호출 구조 분석#llm-compressor#GPTQ#Quantization#PTQ2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Group Size Validation: 그룹 크기 호환성 검사group_size_validation.py의 validate_group_size 함수가 레이어 shape과 group_size의 호환성을 검증하고 에러 메시지를 제공하는 구조 분석#llm-compressor#Quantization#Validation2026년 4월 13일댓글 수 로딩 중