[llm-compressor] DataLoader 최적화와 Single-pass Weight Calibration

2026년 2월 18일수정: 2026년 2월 18일

PR 링크: vllm-project/llm-compressor#2349 상태: Merged | 변경: +146/-20

들어가며

llm-compressor는 vLLM 프로젝트의 모델 양자화 도구다. 양자화 과정에서 캘리브레이션 데이터를 모델에 통과시켜 최적의 양자화 파라미터를 결정하는데, 이 PR은 DataLoader 커스터마이징 옵션을 확장하고, 단일 패스로 가중치 캘리브레이션을 완료하는 기능을 추가한다.

핵심 코드 분석

주요 변경 사항:

DataLoader 옵션 확장: batch_size, num_workers, shuffle 등 PyTorch DataLoader의 주요 파라미터를 양자화 설정에서 직접 제어
Single-pass Calibration: 기존에 여러 번의 forward pass가 필요했던 캘리브레이션을 단일 패스로 수행
Optional Sequential Prefetch: 순차적 프리페치를 선택적으로 활성화하여 메모리/속도 트레이드오프 조절

왜 이게 좋은가

캘리브레이션 속도 향상: 단일 패스로 완료하여 양자화 파이프라인 전체 시간 단축
메모리 효율: 프리페치를 선택적으로 비활성화하여 메모리 부족 환경에서도 동작
유연한 설정: DataLoader 파라미터를 직접 제어하여 다양한 데이터셋과 환경에 대응
대규모 모델 지원: 메모리 최적화로 70B+ 모델의 양자화도 안정적으로 수행

정리

양자화 파이프라인의 실용적인 개선이다. 캘리브레이션 속도와 메모리 효율을 동시에 개선하여 대규모 모델 양자화의 진입 장벽을 낮춘다.

참고 자료

PR #2349

이 글은 AI(Claude)의 도움을 받아 작성되었습니다. 코드 분석 내용은 실제 PR diff를 기반으로 합니다.

댓글

관련 포스트

PR Analysis 의 다른글

이전글 [triton] AMD GFX950에서 Padded Layout Async Copy의 OOM 버그 수정
현재글 : [llm-compressor] DataLoader 최적화와 Single-pass Weight Calibration
다음글 [vllm] Decode Context Parallel - GPU Model Runner V2용 디코드 단계 컨텍스트 병렬화