现代 NLP:详细概述,第 1 部分:transformer


阿比吉特·罗伊
·

一、说明

        近五年来,随着 BERT 和 GPT 等思想的引入,我们在自然语言处理领域取得了巨大的成就。在本文中,我们的目标是逐步深入研究改进的细节,并了解它们带来的演变。

二、关注就是你所需要的

        2017 年,来自 Google Brains 的 Ashish Vaswani 与多伦多大学的同事一起提出了一种用于序列到序列任务(例如神经语言翻译和释义)的想法,该想法不同于现有的按时间步长的单字方法由 LSTM 和 RNN 实现。

        检测到的 RNN 现有架构存在的问题是:

  1. 由于我们一次添加一个单词,在长序列的情况下,很难保留信息。在使用 RNN 和 LSTM 的编码器-解码器结构模型中,隐藏向量从一个时间戳传递到另一个时间戳。然后,在最后一步中,我们将最终的上下文向量传递给解码器。与序列的前几个单词相比,传递给解码器的隐藏上下文向量对最后几个单词的影响更大,因为信息会随着时间的推移而消失。
  2. 为了解决第一点提到的问题,引入了注意力机制。这表明在解码时,我们单独关注输入序列中的单词。输入序列中的每个单词都会获得一个特定的注意力权重向量,然后将该向量乘以单词向量以创建向量的加权和。但问题是,由于我们一次一步地执行此操作,计算时间太长,而且也没有完全消除信息丢失。

2.1 想法

        变形金刚建议使用一种称为自注意力的概念。该模型将一次接收整个句子,然后使用自注意力来决定句子中其他单词在当前单词上下文中的重要性。因此,与常设循环架构相比,它具有以下优点:

  1. 在检测权重时,我们已经拥有了所有单词,因此不存在信息丢失的可能性,而且我们从双方都获得了上下文。也就是说,我们了解所选单词之前的单词和后面的单词,这有助于形成更好的上下文,而不是循环结构(Bi-LSTM 的情况除外)。
  2. 由于我们可以获得完整的句子,并且我们需要找到句子中每个单词的所有其他单词的重要性,因此我们可以对所有单词并行执行此操作。这节省了大量的处理时间并充分利用处理能力。

2.2 自注意力:构建块

        自注意力机制试图找出其他单词对于特定单词的重要性,然后创建一个组合的上下文向量来表示该单词。基本上,这意味着,如果你在句子中选择一个单词,它与句子中其他单词的相关程度有多少?众所周知,单词定义了句子的上下文,而单词的含义往往取决于上下文。这是一种找出句子上下文和相关单词的方法。

单词及其与其他单词的对应重要性

        为了实现这一点,它对句子中的每个输入单词嵌入 (xi) 使用三个向量,即查询 (Qi)、键 (Ki) 和值 (Vi)。根据论文,嵌入向量 x 的长度建议为 512。为了获得这些向量,首先定义三个权重矩阵:Wq、Wv 和 Wk。我们将每个输入词向量 Xi 与相应的权重矩阵相乘,以获得给定词的键、查询和值向量。

Qi = Xi * Wq

Vi = Xi * Wv

Ki = Xi * Wk

        为了找出单词 xi 在单词 xj 的上下文中的重要性,我们需要找到单词 xi 对应的关键向量 Ki 与单词 xj 的查询向量 Qj 的标量点积。然后点积结果除以向量 Ki 维度的平方根,即 8,因为论文中给出的 k 维度为 64。正如论文所建议的,如果我们不除法,点积值就会太大,这会导致 softmax 值变得太陡,从而产生不利于平滑学习的不良梯度。

向量计算:其中Xi是输入词的嵌入,W是权重矩阵。

        一旦我们找出了给定单词的所有单词的重要性,我们就对所有单词的结果使用 softmax。softmax 提供了所有单个单词的最终重要性,使得它们的总和为 1。接下来是单词的值 Vi 向量,我们将向量 Vi 与其相应的重要性相乘。直觉是创建单词表示的值向量,而重要性因素则为主题词的上下文赋予权重。如果一个单词与上下文单词没有关系,它的重要性值将非常非常低,因此最终的乘积向量将非常低,我们可以忽略它对任务的重要性。最后,我们取所有这些加权值向量的总和来创建该特定单词的最终上下文向量,该向量是我们从注意力块接收到的。

一个词的注意力计算

2.3 多头注意力

        我们已经看到了注意力如何工作并为每个单词产生上下文向量。本文的作者使用了多头注意力,以获得无偏的复合上下文向量。他们使用了8个这样的注意力头,为一个单词提供了8个不同的上下文向量。这个想法是,因为每个内部重量矩阵(即WQ,WV和WK)都是随机初始化的,因此每个头部初始化点的变化可能有助于捕获上下文向量中的一系列不同特征。

        最后,对于每个单词,我们都有8个上下文向量,我们将它们串联在一起以获取给定单词的代表性上下文向量。

所有关注的头脑都聚在一起

2.4 自我发挥的障碍:将所有这些结合在一起

        到目前为止,我们讨论过的任何内容都是基于句子中的一个特定单词,但是我们确实需要考虑句子中的所有单词并使系统平行。

        本文建议我们使用长度512的嵌入来表示句子中的每个单词。现在,我们已经知道,对于NLP任务,我们通常需要使用零盖来均衡句子长度。接下来,我们彼此堆叠所有512维词向量,并且由于句子中有固定的单词,我们会得到一个固定的维度2D向量来表示整个句子,这是通过整个注意力发送的。机制。

整体工作

一旦我们获得了所有单词的组合上下文向量,它就会乘以另一个权重矩阵,该矩阵集中学习并降低向量的维度。

三、变压器:体系结构

变压器架构

        变压器还遵循标准编码器架构体系结构。为了简单,更好的学习,单词向量和层的输出的维度都保持在512。模型的学习是以自动回归的方式完成的,即,单词是一个一个人生成的,对于(t+1)单词的预测,我们将t字的输出附加到输入中,然后将其馈送到模型。

        编码器:作者使用了带有2个子层的模块。第一层包含多头注意,我们在上面已经讨论过,第二个子层是完全连接的进料层。前馈层由2个连接的正常神经网络层组成。进料前层的输入和输出为尺寸512,但内部维度为2048,即,内部层中的节点数为2048。完全连接的图层使用Relu激活。作者还使用了加法和归一化层来平滑学习,并避免了我们在几个NLP和计算机视觉案例中看到的信息丢失。

因此,方程变为

output = norm(x + f(x)),其中x是输入,f()是层的转换,可以是前馈或注意块。

编码器块中有6个这样的模块。

        解码器:这与编码器块非常相似。这也有 6 个模块和类似的架构。唯一的区别是,除了已经存在的 2 个子层之外,解码器块还引入了第三个子层,这也是一个注意层,但输入被屏蔽,因此模型无法使用第 (t+1) 个时间戳单词作为输入,同时预测第 t 个单词。没有掩码的多头注意力子层从相应层的编码器获取值。因此,该层接收来自前一个解码器层和相应编码器层的输入。

掩蔽是这样实现的

        据作者称,模型在训练时以 3 种不同的方式使用了注意力层。正如我们所知,我们将所有单词的三个向量(Key、Query 和 Value)输入到注意力块中,作者使用它来更好地训练模型。

        选项 1:在这种情况下,查询来自前一个解码器层,内存键和值来自编码器的输出。这允许解码器中的每个位置关注输入序列中的所有位置。

        选项 2:在这种情况下,值和查询来自编码器中前一层的输出。编码器中的每个位置可以关注编码器上一层中的所有位置。

        选项 3:在这种情况下,值和查询来自解码器中前一层的输出。解码器中的每个位置可以参与解码器前一层中的所有位置。现在,这一点带来了屏蔽多头注意力的重要性,因为模型在 t+1 时看不到单词,所以保留了自回归属性。

最后,作者使用了一个线性变换层,然后是一个 softmax 层。

四、位置编码

        除了模型之外,本文还引入了位置编码的概念。问题是,由于本文没有使用循环网络或卷积网络,也不是基于时间步长的,作者认为应该有一些东西来表示单词的位置,因为它在表达含义中起着重要作用的句子。

        为了解决这个问题,作者提出了两种估计。

        其中 pos 是单词的位置,i 是维度,dmodel = 512,输入维度大小。编码的大小也保持在 512 维,因此可以轻松地将它们添加到词嵌入中。作者选择了这些特定函数,因为这些函数在一定偏移量后给出相同值的倍数,因此可以表示为线性函数。

五、结论

        我们已经了解了变压器的工作原理;接下来,该系列的第二个故事讲述 GPT。我们还将了解其他演变及其实现。

至此,祝您阅读愉快!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/300483.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能优化算法应用:基于减法平均算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于减法平均算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于减法平均算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.减法平均算法4.实验参数设定5.算法结果6.…

H266/VVC帧间预测编码技术概述

帧间预测编码简述 帧间预测利用视频时间域的相关性,使用邻近已编码图像像素值预测当前图像的像素值,能有效去除视频时域冗余。 目前主要的视频编码标准中,帧间预测都采用基于块的运动补偿技术,不同的编码标准有不同的分块方式。 …

【UML】第12篇 序列图(1/2)——基本概念和构成

目录 一、什么是序列图(Sequence Diagram) 1.1 定义 1.2 主要用途 1.3 序列图和BPMN的区别和联系 二、序列图的构成 2.1 对象 2.2 生命线 2.3 消息 2.4 激活 序列图,是我个人认为的用处最多的一种图。产品和研发的同学,都…

CentOS安装MongoDB

CentOS安装MongoDB 文章目录 CentOS安装MongoDB1. 安装并运行2. 创建用户/密码3. 测试语句4. 允许外网访问 1. 安装并运行 在 CentOS 上安装 MongoDB,你可以按照以下步骤进行: 导入 MongoDB 的 GPG 密钥: sudo rpm --import https://www.mon…

XxlJob 常见的报错

XxlJob 启动日志报错: 报错一: ERROR c.x.job.core.util.XxlJobRemotingUtil - Connection refused: connect java.net.ConnectException: Connection refused: connect 解决方法: 要启动的类是 XxlJobAdminApplication ,而不是…

什么是集成测试?它和系统测试的区别是什么? 操作方法来了

01 什么是集成测试? 集成测试是软件测试的一种方法,用于测试不同的软件模块之间的交互和协作是否正常。集成测试的主要目的是确保不同的软件模块能够无缝协作,形成一个完整的软件系统,并且能够满足系统的需求和规格。 在集成测试…

电商数据分析-02-电商业务介绍及表结构

参考 电商业务简介 大数据项目之电商数仓、电商业务简介、电商业务流程、电商常识、业务数据介绍、电商业务表、后台管理系统 举个例子:🌰 1.1 电商业务流程 电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览&…

【回溯】n皇后问题Python实现

文章目录 [toc]问题描述问题转换回溯法时间复杂性Python实现 个人主页:丷从心 系列专栏:回溯法 问题描述 有一批共 n n n个集装箱要装上 2 2 2艘载重量分别为 c 1 c_{1} c1​和 c 2 c_{2} c2​的轮船,其中集装箱 i i i的重量为 w i w_{i} w…

c# OpenCvSharp透视矫正六步实现透视矫正(八)

透视矫正,引用文档拍照扫描,相片矫正这块。 读取图像Cv2.ImRead();预处理(灰度化,高斯滤波、边缘检测)轮廓检测(获取到最大轮廓)获取最大面积轮廓的四个顶点标识最小矩形坐标透视矫正显示 完整代码 // 1、…

【数据结构】LRU缓存的简单模拟实现(leetcode力扣146LRU缓存)

文章目录 一、定义二、LRU模拟实现二、代码实现 一、定义 LRU是Least Recently Used的缩写,意思是最近最少使用,它是一种Cache替换算法。 Cache的容量有限,因此当Cache的容量用完后,而又有新的内容需要添加进来时, 就…

\r\n和缓冲区/进度条小程序

一 前置知识 带有\n就会立马刷新缓冲区,\r不会刷新缓冲区 刷新的2个场景: 1 ~fflush 缓冲区中存在\r或\n --> \r fflush --> 不换行的\n) 2 ~ 文件关闭自动刷新缓冲区 倒计时小程序0-9 倒计时小程序0-99

PostgreSQL 可观测性最佳实践

简介 软件简述 PostgreSQL 是一种开源的关系型数据库管理系统 (RDBMS),它提供了许多可观测性选项,以确保数据库的稳定性和可靠性。 可观测性 可观测性(Observability)是指对数据库状态和操作进行监控和记录,以便在…