llm 量化技术综述

news/2025/3/25 19:05:41/文章来源:https://www.cnblogs.com/xwher/p/18788021

综述: LLM 量化

1. Intro

低比特量化主要是减少tensor的bit-width，可以有效减少内存以及计算需求；主要可以压缩权重, 激活值, 和梯度，使得可以在受限资源的设备上使用。

2. 低比特LLM的基础

在这一届，我们主要引入从以下三个方面讨论：

low-bit 数值格式
量化粒度
动态或者静态量化

2.1 low-bit 数值格式

2.1.1 标准格式

浮点数的一般格式为：

$$X_{FPk} = (-1)^s2(1.mantissa)=(-1)^s2(1+\frac{d_1}{2}+\frac{d_2}{2^2}+...)$$
这里的s是符号位, p是指数的整型, bias需要应用到这个指数上；最后s p 和m的bits加起来应该等于k。

我们可以使用$EeMm$来表示对应的浮点数格式，例如float16可以表示$E5M10$, bfloat16表示为$E8M7$；因此bfloat16可以表示更大的数，但相对的数值分布更稀疏。除此之外，对于fp8也来两种主要的格式$E4M3$和$E5M2$。

NormalFloat(NF): 主要用在weight-only的量化策略

Micro scaling FP: 对tensor的sub-blocks有一个scale系数 $E8M0$ 可以进行更细粒度的量化

integer number: 将浮点数划分为 $2^k$个等间距的离散整型, 格式如下：
$$X_{INT_k} = (-1)^s(d_12m+d_22^{{m-1}+...+d_m2}0)$$
对于有符号整型，我们使用$m=k-1$ 以及 $s \in {0,1}$；对于无符号，我们使用$m=k$和$s=0$

二元数: 直接抽象出值的符号；即 ${-1,1}$ 和 ${0,1}$

2.1.2 自定义格式

TODO

2.2 量化粒度

Tensor-wise, Token-wise, channel-wise, group-wise(将token以及channel划分成组), element-wise(只应用在训练权重时，在推理前，这个scale将被合并到量化权重上)

token-wise的激活值和channel-wise的权重经常一起使用；因为对应量化scale可以先进行一个计算，减少overhead

2.3 动态和静态量化

这里的两个策略主要指PTQ中的策略，我们可以看出哪些方式是需要反量化的计算，哪些则不需要：

动态量化: 裁剪和存储被量化的值，通常不需要输入数据，但对于weight来说可以搜索出最优的scale系数以及零点偏移$Z_w$。在推理时，激活值将作为输入进入量化模块计算出最优的scaling factor和零点偏移，之后动态地进行量化。scaling和zero point可以基于当前批次的数据实时获取。这种方法会引入额外的计算scale的复杂度。

静态量化: 需要输入数据，可以找到对于weight和activation或者weight-only的最优scale系数

3. 框架与系统支持

3.1 量化推理框架

bitsandbytes, mlc-llm, vLLM, llama.cpp, sglang...

一些主流的量化算法: GPTQ, AWQ, SmoothQuant

bit-width 支持:

weight-only: 只量化权重，激活值保持fp16。这种量化的权重将会dequantize成fp16，之后执行fp16的mma运算。减少了计算设备与host之间数据传输的延迟；但是dequantize需要额外的时间。
W & A: 算法量化了权重和激活值，可以直接执行低比特的乘法；所有框架都支持INT8和FP16的矩乘；受限于GPU的计算能力，只有部分硬件支持INT4 FP8的MatMul. 很少有支持不同bitwidth的框架，例如Wint4Aint8，这需要自定义的计算kernel(需要汇编的GEMV指令)。值得注意的是，如果想使用低bit的MatMul，你的硬件必须支持特定的low-bit的计算。
KV cache: 与weight-only的算法类似，量化的kv cache通常在进行矩乘时，需要先将其dequant为fp16，

3.2 量化的系统支持

我们很容易会提出一个问题：量化是怎样达到加速和内存的减少的？

我们首先可以讨论模型推理时的数据传输过程：

host mem -> device mem: 对于权重来说，我们首先将每一层layer的权重从host移动到device上；量化可以减少这部分传输延迟，激活值一般都存储在device上，不需要特殊的移动。
off-chip -> on-chip: 将一块权重和激活值从global memory传输到片上的L2 cache和shared memory
shared memory -> register: 为了更快的计算，quantize和dequant操作以及matmul总是在registers上计算。
off-loading(register->shared memory->device memory)