[SGLang] Block-wise INT8: 블록 단위 정수 양자화SGLang의 Block-wise INT8 양자화를 분석한다. 블록 단위 스케일링의 원리, 텐서별 vs 블록별 양자화 비교, INT8 GEMM 커널 활용을 코드와 함께 살펴본다.#sglang#INT8#Block-wise#Integer Quantization2026년 4월 12일댓글 수 로딩 중
[Ultralytics] v8.4.28 — autobatch를 데이터셋 크기로 제한하여 소규모 데이터셋 학습 안정화데이터셋보다 큰 배치 크기가 산출되는 문제를 해결하고, 캘리브레이션 배치 크기 로직을 개선합니다.#Ultralytics#YOLO#Auto-batch#Training#INT82026년 3월 30일댓글 수 로딩 중
[논문리뷰] 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion ModelsVideo Diffusion Transformers (DiTs)는 탁월한 비디오 생성 능력을 보여주지만, 높은 메모리 사용량과 막대한 계산 비용으로 인해 실제 배포에 심각한 제약을 받는다.#Review#Video Diffusion Transformers#Mixed-Precision Quantization#Inference Acceleration#Temporal Delta Cache#NVFP4#INT8#Post-Training Quantization#Memory Reduction2026년 3월 25일댓글 수 로딩 중
[Ultralytics] TensorRT 문서에서 더 이상 유효하지 않은 INT8 배치 2배 참조 제거INT8 캘리브레이션 시 배치 크기를 자동으로 2배로 늘리던 동작이 제거된 후, 관련 문서를 업데이트합니다.#Ultralytics#TensorRT#INT8#Quantization#Documentation2026년 3월 16일댓글 수 로딩 중
[Ultralytics] 캘리브레이션 데이터셋이 배치보다 작을 때 에러 대신 자동 조정INT8 캘리브레이션 데이터셋이 batch 크기보다 작으면 에러를 던지던 동작을 자동 조정 + 경고로 개선합니다.#Ultralytics#YOLO#INT8#Calibration#Export2026년 3월 12일댓글 수 로딩 중