【学习】注意力机制（Attention）和自注意力机制（self-Attention）-编程知识

【学习】注意力机制（Attention）和自注意力机制（self-Attention）

参考B站：09 Transformer 之什么是注意力机制（Attention）

1. 注意力机制（Attention）

在这里插入图片描述
红色的是科学家们发现，如果给你一张这个图，你眼睛的重点会聚焦在红色区域

人–》看脸

文章看标题

段落看开头

后面的落款

这些红色区域可能包含更多的信息，更重要的信息

注意力机制：我们会把我们的焦点聚焦在比较重要的事物上

Q、K、V

我（查询对象 Q），这张图（被查询对象 V），图中包含的模块（K）。
我看这张图，第一眼，我就会去判断哪些东西对我而言更重要，哪些对我而言又更不重要（去计算 Q 和 V 里的事物的重要度）

重要度计算，其实是不是就是相似度计算（更接近），点乘其实是求内积（数学中的原理，两个矩阵点乘得到的值越大，证明两个矩阵越相似。）
$Q、K=k_1，k_2，···，k_n$
通过点乘的方法计算Q 和 K 里的每一个事物的相似度，就可以拿到 Q 和
$k 1$ 的相似值 $s 1$ ，Q 和 $k 2$ 的相似值 $s 2$ ，Q 和 $kn$ 的相似值 $s n$ .

进一步做 $softmax（s_1,s_2,···,sn）$ ，便可以得到概率值 $a_1，a_2，···，a_n$ 。
在这里插入图片描述
我们还得进行一个汇总，当你使用 Q 查询结束了后，Q 已经失去了它的使用价值了，我们最终还是要拿到这张图片的，只不过现在的这张图片，它多了一些信息（多了于我而言更重要，更不重要的信息在这里）。
$V = (v_1，v_2，···，v_n）=（a_1，a_2，···，a_n）•（v_1，v_2，···，v_n）=(a_1*v_1 + a_2*v_2 + ··· + a_n*v_n )= V'$

这样的话，就得到了一个新的 V’，这个新的 V’ 就包含了，哪些更重要，哪些不重要的信息在里面，然后用 V’ 代替 V。一般 K=V。

理解

注意力机制就是接收一个输入的东西（模型里面可能是特征），利用注意力机制找出图像中和该特征最相似的区域，该区域应该是提取出特征的区域，我们应该更加关注。

Transformer之自注意力机制（self-Attention）

Self-Attention 的关键点在于： K≈V≈Q 来源于同一个 X，这三者是同源的。
通过 X 找到 X 里面的关键点。
并不是 K=V=Q=X，而是通过三个参数 $W_Q,W_K,W_V$ ,接下来的步骤和注意力机制一模一样。

1.Q、K、V的获取

在这里插入图片描述
这里的 $q_1$ ， $q_2$ 是由 $x_1$ ， $x_2$ 与 $W_Q$ 相乘得到的
， $k_1$ ， $k_2$ 是由 $x_1$ ， $x_2$ 与 $W_K$ 相乘得到的
， $v_1$ ， $v_2$ 是由 $x_1$ ， $x_2$ 与 $W_V$ 相乘得到的

这里的Q、K、V都来自于 $x_1$ ， $x_2$ ，所以是同源的。

2. Matmul （Q、K点乘，这里会和每个k进行点乘）

在这里插入图片描述
这里会先进行Q、K相乘，得到其相似值。

3.Scale+Softmax（对Q、K点乘结果进行softmax）：

在这里插入图片描述
将Q、K相乘的相似值通过softmax，转为概率。

4. Matmul（得到的V1，并通过V1得到Z1）：

将前面softmax得到的概率值0.88，再与 $v_1$ 相乘， $v_1*0.88$ 得到一个新的向量值 $v_1$ 。
此时的 $v_2$ 的概率值是0.12， $v_2*0.12$ 得到一个新的向量值 $v_2$ 。

最终的 $z_1= v_2 + v_2$ , $z_1$ 中包含了 $v_1$ 和 $v_2$ 的信息。

$z_1$ 表示的就是 thinking 的新的向量表示，对于 thinking，初始词向量为 $x_1$ 。

现在我通过 thinking machines 这句话去查询这句话里的每一个单词和 thinking 之间的相似度，新的 $z_1$ 依然是 thinking 的词向量表示，只不过这个词向量的表示蕴含了 thinking machines 这句话对于 thinking 而言哪个更重要的信息。

举个例子：
在这里插入图片描述
这里的 its 做了自注意力，其包含了这句话所有词的信息，并且对Law的相似度最高，所以这里的its最有可能代表its。
但是如果不做自注意力，这里的 its 就是单纯的三个字母 its，并没有包含任何信息。
也就是说 its 有 law 这层意思，而通过自注意力机制得到新的 its 的词向量，则会包含一定的 laws 和 application 的信息