张量感知量化杂谈-编程知识

张量感知量化杂谈

news/2025/1/20 10:52:54/文章来源:https://www.cnblogs.com/wujianming-110117/p/18392042

感知量化训练 QAT

传统的训练后量化将模型从 FP32 量化到 INT8 精度时会产生较大的数值精度损失。感知量化训练（Aware Quantization Training）通过在训练期间模拟量化操作，可以最大限度地减少量化带来的精度损失。

QAT 的流程，如图7-9所示，首先基于预训练好的模型获取计算图，对计算图插入伪量化算子。准备好训练数据进行训练或者微调，在训练过程中最小化量化误差，最终得到 QAT 之后对神经网络模型。QAT 模型需要转换去掉伪量化算子，为推理部署做准备。

图7-9 QAT的流程方法

QAT 时会往模型中插入伪量化节点 FakeQuant 来模拟量化引入的误差。端测推理的时候折叠伪量化节点中的属性到张量中，在端侧推理的过程中直接使用张量中带有的量化属性参数。

1. 伪量化节点

在 QAT 过程中，所有权重和偏差都以 FP32 格式存储，反向传播照常进行。然而，在正向传播中，通过 FakeQuant 节点模拟量化。之所以称之为“fake”量化，是因为它们对数据进行量化并立即反量化，添加了类似于在量化推理过程中可能遇到的量化噪声，以模拟训练期间量化的效果。最终损失 loss 值因此包含了预期内的量化误差，使得将模型量化为 INT8 不会显著影响精度。

伪量化节点通常插入在模型的以下关键部分：

1）卷积层（Conv2D）前后：这可以帮助卷积操作在量化后适应低精度计算。

2）全连接层（Fully Connected Layer）前后：这对于处理密集矩阵运算的量化误差非常重要。

3）激活函数（如 ReLU）前后：这有助于在非线性变换中保持量化精度。

这些插入位置可以确保模型在训练期间模拟量化引入的噪声，从而在推理阶段更好地适应量化环境。

下面是一个计算图，同时对输入和权重插入伪量化算子，如图7-10所示。

图7-10 同时对输入和权重插入伪量化算子方法

伪量化节点的作用：

1）找到输入数据的分布，即找到 MIN 和 MAX 值；

2）模拟量化到低比特操作的时候的精度损失，把该损失作用到网络模型中，传递给损失函数，让优化器去在训练过程中对该损失值进行优化。

2. 正向传播

在正向传播中，FakeQuant 节点将输入数据量化为低精度（如 INT8），进行计算后再反量化为浮点数。这样，模型在训练期间就能体验到量化引入的误差，从而进行相应的调整。为了求得网络模型张量数据精确的 Min 和 Max 值，因此在模型训练的时候插入伪量化节点来模拟引入的误差，得到数据的分布。对于每一个算子，量化参数通过下面的方式得到：

𝑄=𝑅𝑆+𝑍𝑆=𝑅𝑚𝑎𝑥−𝑅𝑚𝑖𝑛𝑄𝑚𝑎𝑥−𝑄𝑚𝑖𝑛𝑍=𝑄𝑚𝑎𝑥−𝑅𝑚𝑎𝑥𝑆

FakeQuant 量化和反量化的过程：

𝑄(𝑥)=𝐹𝑎𝑘𝑒𝑄𝑢𝑎𝑛𝑡(𝑥)=𝐷𝑒𝑄𝑢𝑎𝑛𝑡(𝑄𝑢𝑎𝑛𝑡(𝑥))=𝑠∗(𝐶𝑙𝑎𝑚𝑝(𝑟𝑜𝑢𝑛𝑑(𝑥/𝑠)−𝑧)+𝑧)

原始权重为 W，伪量化之后得到浮点值 Q(W)，同理得到激活的伪量化值 Q(X)。这些伪量化得到的浮点值虽然表示为浮点数，但仅能取离散的量化级别。

3. 反向传播

在反向传播过程中，模型需要计算损失函数相对于每个权重和输入的梯度。梯度通过 FakeQuant 节点进行传递，这些节点将量化误差反映到梯度计算中。模型参数的更新因此包含了量化误差的影响，使模型更适应量化后的部署环境。按照正向传播的公式，因为量化后的权重是离散的，反向传播的时候对 𝑊 求导数为 0：

𝜕𝑄(𝑊)𝜕𝑊=0

因为梯度为 0，所以网络学习不到任何内容，权重 𝑊 也不会更新：

𝑔𝑊=𝜕𝐿𝜕𝑊=𝜕𝐿𝜕𝑄(𝑊)⋅𝜕𝑄(𝑊)𝜕𝑊=0

如图7-11所示，使用直通估计器（Straight-Through Estimator，简称 STE），简单地将梯度通过量化传递，近似来计算梯度。这使得模型能够在前向传播中进行量化模拟，但在反向传播中仍然更新高精度的浮点数参数。STE 近似假设量化操作的梯度为 1，从而允许梯度直接通过量化节点：

𝑔𝑊=𝜕𝐿𝜕𝑊=𝜕𝐿𝜕𝑄(𝑊)