Transformer 学习与解读

news/2025/1/22 11:29:00/文章来源:https://www.cnblogs.com/mercurystraw/p/18685332

LLM学习笔记

注意力机制

sequence to sequence （seq2seq）输入N个向量，输出任意可能数量的向量（由机器决定）；如果输出N个向量的任务就叫做Sequence Labeling

李沐课程讲义：https://zh-v2.d2l.ai/chapter_attention-mechanisms/self-attention-and-positional-encoding.html

在注意力机制的背景下，自主性提示被称为查询（query）。给定任何查询，注意力机制通过注意力汇聚（attention pooling）将选择引导至感官输入（sensory inputs，例如中间特征表示）。在注意力机制中，这些感官输入被称为值（value）。更通俗的解释，每个值都与一个键（key）配对，这可以想象为感官输入的非自主提示。如图10.1.3所示，可以通过设计注意力汇聚的方式，便于给定的查询（自主性提示）与键（非自主性提示）进行匹配，这将引导得出最匹配的值（感官输入）。

注意力分数是衡量 query 和 key 之间相似度的值。它表示在注意力机制中，模型应该“关注”哪些部分的信息。注意力分数越高，表示 query 和 key 之间的相关性越强。

注意力权重是注意力分数经过 softmax 函数归一化后的结果。softmax 将分数转换为概率分布，确保所有权重的总和为 1。注意力权重决定了每个 key 对最终输出的贡献程度。

两种常见的注意力分数计算方法

使用单层 MLP（多层感知机） （查询和键是不同长度的矢量时）

将 query 和 key 拼接起来，输入到一个单隐藏层的 MLP 中。
MLP 输出一个标量值，作为 query 和 key 的注意力分数。
这种方法可以捕捉 query 和 key 之间的非线性关系

直接计算内积 （查询和键具有相同的长度）

直接计算 query 和 key 的内积（点积），作为注意力分数。
这种方法假设 query 和 key 在同一个向量空间中，内积越大表示相似度越高。
内积计算简单高效，常用于 Transformer 等模型中。

自注意力机制

有了注意力机制之后，我们将词元序列输入注意力池化中，以便同一组词元同时充当查询 query、键key和值value（而将a变为q k v则需要Wq Wk Wv矩阵进行变换）。具体来说，每个查询都会关注所有的键－值对并生成一个注意力输出。由于查询、键和值来自同一组输入，因此被称为 自注意力（self-attention）

下图：首先使用q2和ki计算注意力分数（dot product点积或者加性），接着可以对注意力分数进行softmax归一化，得到α'。通过注意力权重α'和值向量vi进行加权求和，得到输出向量b2。表示模型在生成第 2 个位置的输出时，对所有输入位置的信息的加权整合。

只有Wq Wk Wv 未知，需要通过训练数据计算

多头自注意力机制（Multi-head Self-attention）

多头机制是指并行地使用多个自注意力机制（称为“头”），每个头学习不同的表示子空间。
不同的头可以关注输入序列中不同的部分，例如一个头关注局部信息，另一个头关注全局信息。
通过并行计算多个注意力头，模型可以学习到更丰富的特征表示。

得到b(i,1)和b(i,2)再进行矩阵连接传入到下一层。

位置编码 positional encoding

在处理词元序列时，循环神经网络是逐个的重复地处理词元的，而自注意力则因为并行计算而放弃了顺序操作（对所有的输入操作，从而位置信息不重要了）。为了使用序列的顺序信息，通过在输入表示中添加 位置编码（positional encoding）来注入绝对的或相对的位置信息。

自注意力机制失去了位置信息，如果位置信息比较重要，可以加入位置信息，只需要为每个位置添加一个位置向量e^i，输入变为：

\[e^{i}+a^{i} \]

在图像识别中，训练资料较少时CNN效果比较好，因为采用接受域，相较于全局计算的自注意力训练量较大；训练资料较大时自注意力效果更好

Transformer

基于编码器-解码器架构来处理序列对，纯基于self-attention的（没有RNN的）

Encoder：输入一个vector sequence，输出另外一个vector sequence

residual 残差（原输入加到输出上）

不能用Batch Norm 要用Layer Norm。

Batch Norm：对不同样本的同一维度特征进行正则化，不适合序列长度会变得NLP应用

Layter Norm：对同一样本的不同维度特征进行正则化

残差网络

残差网络（避免梯度消失w3(w2(w1x+b1)+b2)+b3，如果 w1，w2，w3 特别小，0.000000……1，x 就没了，所以改为【w3(w2(w1x+b1)+b2)+b3+x】）
x1作为残差结构的直连向量，直接和 z1 相加，之后进行 Layer Norm 操作，得到浅粉色向量 z1，z1 经过前馈神经网络（Feed Forward）层，经过残差结构与自身z1相加，之后经过 LN 层，得到一个输出向量 r1；
Add & Norm 就是 Residual残差网络和标准化
残差结构的作用：避免出现梯度消失的情况
Layer Norm 的作用：为了保证数据特征分布的稳定性，并且可以加速模型的收敛

Decoder

Auto-Aggressive（自回归）

输入时加一个特殊的标志BEGIN符号。

V 是中文词汇表，3000常用汉字，根绝Encoder中KQ输出的softmax函数的概率值，选择分数最高的对应汉字

Decoder接着会把自己的输出当做下一个输入。

Decoder中的Masked，即在算bi时，不考虑i之后的aj。这样更接近于decoder的运作方式。（在解码时候是a1 a2……一个一个产生的，要计算b2时，没有a3 a4）

Decoder如何决定输出序列的长度？

用特殊符号END表示"断"。让机器产生END的概率最大时表示结束。

AT VS NAT

Non-Auto-Aggressive（非自回归）

不依赖于之前生成的步骤，所有步骤可以并行生成。

NAT会给多个BEGIN，一次性生成完成完整的句子（注意位置嵌入的作用）。要由特殊方法判断终止。

NAT可以并行化，可以控制输出长度（在语音中可以据此控制说话速度）。但NAT质量通常不如AT。

自回归模型：
- 文本生成（如 GPT）、对话系统、长文本翻译。
非自回归模型：
- 实时翻译、语音合成、图像生成。

Decoder架构相较于Encoder就加了一块Cross attention模块。

Decoder中间的 Cross attention （交叉注意力机制）三个input，K和V来自于Encoder，Q来自于Decoder

如下图 Cross attention ：可以理解为 Decoder 产生的Q 查询从Encoder KV 键值对里查询信息

How to train？

每产生一个字就是从几千个字中进行的分类问题。训练时希望所有的字(含END)的交叉熵之和（cross entropy）最小。

训练的时候有正确答案ground truth

测试的时候没有正确答案

训练和测试不一致（Exposure Bias）：

Exposure Bias 的定义

训练阶段：
- 自回归模型在训练时，通常使用 Teacher Forcing 方法，即每一步生成时，模型的输入是真实的上一时刻的目标词（Ground Truth）。
- 例如，生成句子 "I love you" 时，模型在生成 "love" 时，输入是真实的 "I"。
推理阶段：
- 在推理时，模型没有真实的目标词作为输入，只能使用自己生成的上一时刻的词作为输入。
- 例如，生成句子 "I love you" 时，模型在生成 "love" 时，输入是自己生成的 "I"。
问题：
- 如果模型在生成过程中出现错误（如生成一个不准确的词），这个错误会作为输入传递给下一步，导致错误累积，最终影响生成结果。