#Extreme Low-bit Quantization

1개의 포스트

[논문리뷰] OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond

본 논문은 장문 컨텍스트 추론 및 다중 모드 지능의 발전으로 인해 KV Cache가 추론의 지배적인 메모리 병목으로 부상한 문제를 해결합니다. 기존의 per-channel 양자화 기법은 Key 텐서의 채널별 이상치를 처리하는 데 효과적이나, 압축률이 극도로 높아질 경우 그 효용이 급격히 감소합니다.

#Review #KV Cache Quantization #Token Norm Imbalance (TNI)#Omni-Scaled Canalized Rotation (OScaR)#Extreme Low-bit Quantization #Large Language Models (LLMs)#CUDA Kernel Optimization

2026년 5월 20일