#INT8

5개의 포스트

[SGLang] Block-wise INT8: 블록 단위 정수 양자화

SGLang의 Block-wise INT8 양자화를 분석한다. 블록 단위 스케일링의 원리, 텐서별 vs 블록별 양자화 비교, INT8 GEMM 커널 활용을 코드와 함께 살펴본다.

#sglang #INT8 #Block-wise #Integer Quantization

2026년 4월 12일

[Ultralytics] v8.4.28 — autobatch를 데이터셋 크기로 제한하여 소규모 데이터셋 학습 안정화

데이터셋보다 큰 배치 크기가 산출되는 문제를 해결하고, 캘리브레이션 배치 크기 로직을 개선합니다.

#Ultralytics #YOLO #Auto-batch #Training #INT8

2026년 3월 30일

[논문리뷰] 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Video Diffusion Transformers (DiTs)는 탁월한 비디오 생성 능력을 보여주지만, 높은 메모리 사용량과 막대한 계산 비용으로 인해 실제 배포에 심각한 제약을 받는다.

#Review #Video Diffusion Transformers #Mixed-Precision Quantization #Inference Acceleration #Temporal Delta Cache #NVFP4 #INT8 #Post-Training Quantization #Memory Reduction

2026년 3월 25일

[Ultralytics] TensorRT 문서에서 더 이상 유효하지 않은 INT8 배치 2배 참조 제거

INT8 캘리브레이션 시 배치 크기를 자동으로 2배로 늘리던 동작이 제거된 후, 관련 문서를 업데이트합니다.

#Ultralytics #TensorRT #INT8 #Quantization #Documentation

2026년 3월 16일

[Ultralytics] 캘리브레이션 데이터셋이 배치보다 작을 때 에러 대신 자동 조정

INT8 캘리브레이션 데이터셋이 batch 크기보다 작으면 에러를 던지던 동작을 자동 조정 + 경고로 개선합니다.

#Ultralytics #YOLO #INT8 #Calibration #Export

2026년 3월 12일