模型量化(Model Quantization)是機器學習中將模型的權重和/或激活值從高精度浮點數(如32位浮點)轉換為低精度格式(如8位整數)的技術,目的是減少模型的存儲空間和運算成本,從而提升推論速度並降低功耗,同時盡可能保持模型的準確度。
主要量化技術
- 後訓練量化(Post-Training Quantization, PTQ):在訓練完成後對模型進行量化,操作簡單且快速,但精度損失可能較大。
- 動態量化(Dynamic Quantization):量化權重,激活值在推論時動態量化。 靜態量化(Static Quantization):量化權重和激活值,需用校準數據集估計激活範圍。
- 量化感知訓練(Quantization-Aware Training, QAT):在訓練過程模擬量化操作,讓模型能適應量化帶來的誤差,精度維持較好,但訓練成本較高。
常見量化格式
- 8位整數(INT8):目前最廣泛應用的量化格式,平衡精度和效能。
- 4位整數(INT4)及更低位數:用於超大模型,需進階技術保證精度。
- 低精度浮點(如FP16、BF16):部分硬體支持,常用於混合精度訓練。
量化的優點
- 降低模型大小,減少存儲需求。
- 提升硬體推論速度和能源效率,尤其在邊緣設備或移動設備上。
- 支持在資源受限環境快速部署深度學習模型。
量化挑戰
- 量化過度會造成模型性能(準確度)下降。
- 激活值分佈較廣,校準困難影響效果。
- 需要硬體與軟體生態支持低精度運算。
總之,模型量化是實現深度學習模型輕量化與高效部署的關鍵技術之一,透過後訓練量化和量化感知訓練兩種主流方案平衡易用性和精度,是現代AI應用不可或缺的優化手段。











