Transformer模型-decoder解码器,target mask目标掩码的简明介绍

 今天介绍transformer模型的decoder解码器,target mask目标掩码

背景


解码器层是对前面文章中提到的子层的包装器。它接受位置嵌入的目标序列,并将它们通过带掩码的多头注意力机制传递。使用掩码是为了防止解码器查看序列中的下一个标记。它迫使模型仅使用之前的标记作为上下文来预测下一个标记。然后,它再通过另一个多头注意力机制,该机制将编码器层的输出作为额外的输入。最后,它通过位置全连接前馈网络。在这些子层中的每一个之后,它都会执行残差相加和层归一化。

Transformer中的解码器层


如上所述,解码器层无非是对子层的包装器。它实现了两个多头注意力子层和一个位置全连接前馈网络,每个子层之后都跟着层归一化和残差相加。

参看 编码器encoder:

Transformer模型-encoder编码器,padding填充,source mask填充掩码的简明介绍-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/ank1983/article/details/137399110

为什么需要掩码?


目标掩码target mask

要理解为什么需要目标掩码,最好看一下解码器的输入和输出的示例。解码器的目标是在给定的编码源序列和目标序列的一部分的情况下,预测序列中的下一个标记。为了实现这一点,必须有一个“开始”标记来提示模型预测序列中的下一个标记。这就是上面图像中“<bos>”标记的用途。还需要注意的是,解码器的输入和输出的大小必须相同。

如果目标是将“Wie heißt du?”翻译为“What is your name?”,那么编码器将编码源序列的含义并将其传递给解码器。给定“<bos>”标记和编码的源序列,解码器应该预测出“What”。然后,将“What”附加到“<bos>”后面以创建新的输入,即“<bos> What”。这就是为什么解码器的输入被认为是“向右移动”的原因。这可以传递给解码器以预测What is。这个标记被附加到之前的输入上,以创建新的输入“<bos> What is”。这将被传递给解码器以预测“What is your”。这个过程会一直重复,直到模型预测出“<eos>”标记。

通过使用目标掩码,模型可以同时学习每个迭代的目标序列,例如“<bos> What is your name? <eos>”。

请记住,解码器的输入和输出长度必须相同。因此,在将目标序列传递给解码器之前,需要移除每个目标序列的最后一个标记。如果目标序列存储在trg中,那么解码器的输入将是trg[:, :-1],用于选择除最后一个标记之外的所有内容,这可以在上面的目标输入中看到。预期的输出将是trg[:, 1:],即除第一个标记之外的所有内容,这是上面看到的预期输出。

总结来说,与编码器层一样,解码器也需要对其输入进行掩码处理。虽然填充掩码对于输入是必要的,但目标序列也需要一个前视或后续掩码。在推理过程中,模型只会被提供一个开始标记,并必须基于它预测下一个标记。然后,给定两个标记,它必须预测第三个标记。这个过程会一直重复,直到预测出序列结束标记。这就是Transformer的自回归行为。换句话说,未来的标记只基于过去的标记和来自编码器的嵌入进行预测。

为了模拟这种行为,模型使用后续掩码同时学习所有这些迭代。

可以使用PyTorch的torch.tril函数来创建后续掩码。它将具有(trg_seq_length, trg_seq_length)的形状。

填充掩码&目标掩码

对于序列中的每个标记,概率分布只能考虑之前的标记。但是,由于目标序列也必须进行填充,因此填充掩码和后续掩码必须结合使用。

这可以通过使用 & 运算符轻松实现,该运算符仅在两个掩码都为1时才返回1。

这个最终的目标掩码必须为每个批次中的序列创建,这意味着它将具有(batch_size, 1, trg_seq_length, trg_seq_length)的形状。这个掩码将在每个头之间进行广播。

原文链接:https://medium.com/@hunter-j-phillips/the-decoder-8882c33de69a

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/619583.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CUDA独立上下文模块加载

CUDA独立上下文模块加载 大多数 CUDA 开发人员都熟悉 cuModuleLoad API 及其对应项&#xff0c;用于将包含设备代码的模块加载到 CUDA 上下文中。 在大多数情况下&#xff0c;您希望在所有设备上加载相同的设备代码。 这需要将设备代码显式加载到每个 CUDA 上下文中。 此外&…

前端跨域怎么办?

如果网上搜到的方法都不可行或者比较麻烦&#xff0c;可以尝试改变浏览器的设置&#xff08;仅为临时方案&#xff09; 1.新建一个Chrome浏览器的快捷方式 2.鼠标右键&#xff0c;进入属性&#xff0c;将以下命令复制粘贴到目标位置&#xff08;可根据Chrome实际存放位置修改…

免费的 ChatGPT 网站(六个)

&#x1f525;博客主页&#xff1a; 小羊失眠啦. &#x1f3a5;系列专栏&#xff1a;《C语言》 《数据结构》 《C》 《Linux》 《Cpolar》 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 文章目录 一、insCode二、讯飞星火三、豆包四、文心一言五、通义千问六、360智脑 现在智能…

在 Ubuntu 12.10 安装 wxPython

安装 wxPython 可以使用 pip 工具&#xff0c;但在 Ubuntu 12.10 上需要首先安装 wxPython 的依赖项。请注意&#xff0c;Ubuntu 12.10 已于2013年终止支持&#xff0c;建议升级到更高版本的 Ubuntu。以下是在 Ubuntu 12.10 上安装 wxPython 的一般步骤&#xff1a; 一、问题背…

3D开发工具HOOPS:推动汽车行业CAD可视化发展

在最近的行业对话中&#xff0c;Tech Soft 3D&#xff08;HOOPS厂商&#xff09;的Jonathan Girroir和Actify的Peter West探讨了CAD可视化在当代企业中的重要性和挑战。作为CAD可视化领域的佼佼者&#xff0c;Actify通过其广受欢迎的Spinfire应用&#xff0c;赋能了全球40多个国…

吃透1250道AMC10历年真题和详细解析,科学高效备考2024年AMC10

距离2024年AMC10比赛正式开始还有6个多月的时间&#xff0c;备考要趁早。 我们今天继续来随机看5道AMC10真题&#xff0c;以及详细解析&#xff0c;这些题目来自1250道完整的官方历年AMC10真题库。 2000-2023年AMC10真题练习和解析&#xff1a;2020年第21题 这道题的考点是等比…

关于机器学习/深度学习的一些事-答知乎问(五)

嵌入学习方法在解决小样本学习问题时面临的挑战是什么&#xff1f; &#xff08;1&#xff09;过度依赖于辅助数据&#xff0c;预训练的模式违背了小样本学习的本质定义。几乎所有的嵌入学习方法都需要通过大量辅助样本来预训练特征嵌入函数&#xff0c;但在实际应用场景中&am…

大数据存储解决方案和处理流程——解读大数据架构(四)

文章目录 前言数据存储解决方案数据集市运营数据存储&#xff08;Operational Data Store&#xff09;数据中心 数据处理数据虚拟化和数据联合虚拟化作为 ETL 或数据移动的替代品数据目录数据市场 前言 在数字时代&#xff0c;数据已成为公司的命脉。但是&#xff0c;仅仅拥有…

VectorMap论文阅读

1. 摘要 自动驾驶系统需要对周围环境具有很好的理解&#xff0c;包括动态物体和静态高精度语义地图。现有方法通过离线手动标注来解决语义构图问题&#xff0c;这些方法存在严重的可扩展性问题。最近的基于学习的方法产生稠密的分割预测结果&#xff0c;这些预测不包含单个地图…

数据结构课程设计选做(三)---公共钥匙盒(线性表,栈,队列)

2.3.1 题目内容 2.3.1-A [问题描述] 有一个学校的老师共用N个教室&#xff0c;按照规定&#xff0c;所有的钥匙都必须放在公共钥匙盒里&#xff0c;老师不能带钥匙回家。每次老师上课前&#xff0c;都从公共钥匙盒里找到自己上课的教室的钥匙去开门&#xff0c;上完课后&…

TQ15EG开发板教程:在MPSOC上运行ADRV9371(vivado2018.3)

首先需要在github上下载两个文件&#xff0c;本例程用到的文件以及最终文件我都会放在网盘里面&#xff0c; 地址放在本文最后。首先在github搜索hdl选择第一个&#xff0c;如下图所示 GitHub网址&#xff1a;https://github.com/analogdevicesinc/hdl/releases 点击releases…

在CentOS7中安装MySQL

mysql软件安装包已提供文章顶部,有需要的可以自行下载,也可以参考文中的链接自行下载版本号。(如果没有请看个人资源列表) 本文主要介绍在centos7中如何安装mysql,以及安装过程中所遇到的问题进行解决。 后期通过Navicat Premium 16链接centos7的mysql数据库进行校验。 包…