【自然语言处理六-最重要的模型-transformer-下】-编程知识

【自然语言处理六-最重要的模型-transformer-下】

自然语言处理六-最重要的模型-transformer-下

transformer decoder
- Masked multi-head attention
- encoder和decoder的连接部分-cross attention
- decoder的输出
- - AT(Autoregresssive)
  - NAT

transformer decoder

今天接上一篇文章讲的encoder 自然语言处理六-最重要的模型-transformer-上，继续讲transformer的decoder，也就是下图中的红框部分
在这里插入图片描述

可以看出encoder和decoder部分去掉粉红色框的部分，结构几乎一样，下面分三部分介绍不同点

Masked multi-head attention

decoder的注意力是masked的注意力，什么是masked的attention呢？下面是self attention:

在这里插入图片描述
需要注意的是：
selfattention中注意力bⁱ的输出是需要关注所有的输入，也就是下面那一整排向量

但如果是masked self-attention，注意力是这样子的：
在这里插入图片描述
这个与普通的self attention的区别：
bⁱ只能关注a⁰到aⁱ的输入，不能包括aⁱ⁺¹后的输入，那么为什么需要masked attention呢？
用下面的语音辨识，举个例子说明一下：

encoder是把一次性把所有的输入都输入到模型，计算注意力分数，但是对于decoder来说，它是一个字一个字产生：
比如decoder计算第一个位置应该输入什么的时候，它并不知道下一个的输入是“機”，所以必须遮蔽右边的输入，因此又叫masked self-attention。
decoder中下一次的输入是在本次输入BEGIN计算出来以后“機”这个字，作为下一次的输入。
需要说明的一点是：
实际上我们在训练的时候是知道每个输入的，因为这些信息是训练资料提供的，但真正测试使用的时候，是无法知晓的。

encoder和decoder的连接部分-cross attention

下面是encoder和decoder的互连部分：
在这里插入图片描述
相同的Add和Norm不再赘述，下面是attention部分，这个attention部分的输入分为3部分:
有两个箭头来自encoder的输出（这部分用作self attention中的k和v）
一个箭头来自decoder上一层的输出（这一部分用作q）