#Low-Bit Quantization

4개의 포스트

[논문리뷰] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델은 로봇 제어 및 추론 태스크에서 강력한 성능을 보이지만, 점차 증가하는 컴퓨팅 및 메모리 요구 사항으로 인해 실용적인 배포에 상당한 어려움을 겪고 있습니다.

#Review #Post-Training Quantization (PTQ)#Vision-Language-Action (VLA) Models #Diffusion Transformer (DiT)#Scale Calibration #Memory Efficiency #Robotics #Low-Bit Quantization

2026년 2월 24일

[논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

본 논문은 리소스 제약이 있는 환경에서 LLM 추론의 메모리 및 대역폭 병목 현상을 해결하기 위한 양자화 기술에 초점을 맞춥니다.

#Review #Quantization #Large Language Models #Post-Training Quantization #Bit-Plane Decomposition #Variable Quantization Grid #Low-Bit Quantization #Model Compression #Hessian-Induced Geometry

2026년 2월 15일

[논문리뷰] SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

본 논문은 대규모 언어 모델(LLMs)을 극단적인 저비트 양자화(예: 2비트, 4비트 MXFP4) 시 발생하는 심각한 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Post-Training Quantization (PTQ)#Large Language Models (LLMs)#Low-Bit Quantization #Mixed-Precision Quantization #Sensitivity Metric #Quantization Scale Initialization #Accuracy Preservation

2025년 12월 4일

[논문리뷰] Metis: Training Large Language Models with Advanced Low-Bit Quantization

본 논문은 대규모 언어 모델(LLMs)을 저비트 양자화로 훈련할 때 발생하는 이방성 매개변수 분포 가 불안정한 훈련과 성능 저하의 주된 원인임을 식별하고, 이를 해결하여 견고하고 효율적인 저비트 훈련을 가능하게 하는 새로운 프레임워크인 Metis 를 제안합니다.

#Review #Low-Bit Quantization #LLMs #Spectral Decomposition #Anisotropy #Adaptive Learning Rate #Regularization #FP8 Training #FP4 Training

2025년 9월 3일