NLP重要知识点:预训练模型【核心且详细】

本资料是NLP核心知识点的ppt!!!【文章较长,建议收藏】
本节课我们学习预训练模型。

前言

在这里插入图片描述

我们在学习词向量的时候,应该知道了多个产生词向量的方法,包括基于矩阵(词-词共现矩阵)分解的方法、基于语言模型(word2vec)的方法、以及结合二者优点的Glove模型等其他产生词向量的方法。
然而,他们所产生的的词向量,都属于静态的词向量,这是由于这些方法产生的词向量表示方式,将会拿来直接作为输入层的输入,并且在后面的下游任务模型训练过程中,词向量不会再被调整, 所谓静态是指,一经产生,就不会再改变。

然而,对于一词多义的问题,这种静态的词向量并不能很好的表示一个单词的实际语义。例如,下面的两句话:

苹果好吃吗?
苹果好玩吗?

我们知道,“苹果”这个单词,在第一句话中,表示水果,而在第二句话中,表示手机品牌。然而使用静态词向量却无法很好的将二者语义区分开来,所以我们可以通过引入上下文信息建模更加复杂的神经网络,从而将静态词向量转换为动态词向量。

那么有哪些模型可以实现动态词向量呢?具体是如何得到的呢?

课程目录

我们将从这几个方面进行讲解。

NLP发展史
Attention
Transformer
BERT
ERINE

NLP发展史

请添加图片描述
2013年Mikolov提出了word2vec语言模型,解决了训练词向量的方法。

2014年,循环神经网络及其变种LSTM/GRU开始被使用,并且Seq2Seq也被提出,
它是一种循环神经网络的变种,包括编码器 (Encoder) 和解码器 (Decoder) 两部分。

2015年,Attention注意力机制被引入到网络中,克服了“当输入序列非常长时,模型难以学到合理的向量表示”这一问题。

后面的发展中,我们发现,Attention注意力机制发挥了重要作用。例如,2017年提出的Transformer中,就强调了Attention的重要性。再往后,著名的语言模型BERT、ERNIE等,Attention都是其中的核心组件。

接下来,我们就依次对Attention、Transformer、BERT、ERNIE进行一个介绍。

Attention

请添加图片描述
如图,是大脑中的注意力变化图。

举个例子,假如大家正在教室里认真的听老师讲课,那么此时,大家的注意力肯定是放在了耳朵和眼睛上,但是如果现在问大家一个问题,你能感受到你现在穿鞋了吗?其实大家肯定是穿了,但是问完这个问题以后,大家的注意力肯定会立马转移到脚上。那么左图就是t时刻,我们大家大脑的注意力分布图,右侧就是t+1时刻,注意力转移之后的分布图。
在这里插入图片描述

我们再以一个序列语句“He is eating an green apple”为例,再来看一下我们的注意力分布变化。

当我们在看第一个词He的时候,其实我们的注意力会更多的去看它后面两个单词是什么,也就是x2(is)和x3(eating)的注意力会高一些,就像图中的实线条所示;但是当我们读到第三个单词“eating”时,我们会更多的将注意力放在x1(He)和x5(apple)上,那么此时的注意力曲线就会变成虚线所示。

如果将每一个时刻的输入x看做是一个词向量,那么注意力大小就可以看做是一个权重。此时,在不同时刻,我们如果用整个句子中的每一个词的向量和权重去表示当前时刻的词向量,那么就可以使用如下 公式表示:

其中i表示某一时刻,yi表示该时刻的输出,xj表示每一个词向量,wij表示i时刻不同单词的权重。通过以上方式,我们其实就是在一句话中,重新表示了一个单词的向量。这也就是动态词向量的核心内容。在这里插入图片描述

那刚才我们提到的权重,也就是注意力分布是怎么计算的呢?

在Attention机制中,我们通过相似度来计算权重。

注意力机制可以分为两步:

计算注意力分布
根据 来计算输入信息的加权平均

以文本序列为例,图中,q代表query,即要查询某个单词的词向量,x1,x2…xN,代表了一个序列,其中每一个xi表示不同时刻的输入单词(向量)。我们从下往上看这幅图,就是依次计算了q和x的相似度(通过矩阵相乘的方式),然后再通过softmax的方式进行归一化操作,此时计算的结果就是注意力分布 ,再然后,我们将x分别与之对应的 进行加权组合,得到最终的结果a,就是我们使用序列中所有单词向量动态表示q的结果。

在这里插入图片描述

刚才我们一直提到的都是注意力机制,下面我们引入另一个单词,自注意力机制,也就是self-Attention,很明显,自注意力机制就是自己注意自己,也就是我们将前面的q换成序列中的单词,用该句中的所有单词去表示每一个单词。

以“The weather is nice today”这句话为例。

假如我们要使用这句话中所有单词去动态表示单词“The”,根据刚才的步骤,我们依次计算“the”的向量和句子中每个单词的相似度,再经过softmax函数,就得到了权重w1、w2、w3、w4、w5,最后我们用某个单词的权重与该单词的向量进行加权求和,就可以得到单词“The”在该句话中的动态表示。

在这里插入图片描述

那刚才我们提到了attention和self-attention,他们两个有什么特点吗?这个表格就给出了一些经验。

Attention:通常被应用在output层或者state层上,用于连接两个不同组件(例如,从Encoder到Decoder的转换),善于寻找两个序列之间的关系;通常而言,一个模型中,只被使用1次;也可以连接两种不同的模态(图片和文字)。
Self-Attention:只关注一个组件,通常是关注input层,例如bert中,用在了Encoder;一个模型中,通常使用多次(Transformer18次,bert12次),善于寻找一个序列中不同部分的关系;更多的用于同一种模态。

Transformer

在这里插入图片描述

什么是transformer呢?
在不同的领域我们有不同的翻译,例如,在动漫里,我们将其翻译成“变形金刚”,在电力中,我们将其翻译成“变压器”,而我们所说的transformer,二者都不属于,而是一种神经网络。

曾经一段时间,有人把他翻译成变压器,这是由于该网络的最初应用是在语言翻译中,而语言翻译,就像变压器一样,是将一种语言翻译成另一种语言,所以将其翻译成变压器,也无可厚非,但是,随着transformer的应用越来越广泛,目前为止,已经远远超过“变压器”的含义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/586583.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每天五分钟计算机视觉:使用神经网络完成人脸的特征点检测

本文重点 我们上一节课程中学习了如何利用神经网络对图片中的对象进行定位,也就是通过输出四个参数值bx、by、bℎ和bw给出图片中对象的边界框。 本节课程我们学习特征点的检测,神经网络可以通过输出图片中对象的特征点的(x,y)坐标来实现对目标特征的识别,我们看几个例子。…

上门家政服务系统开发家政平台软件APP小程序家政系统源码

项目背景 随着科技的快速发展和人们生活水平的提高,家政行业正迎来前所未有的发展机遇。传统的家政服务模式已无法满足现代家庭对于高效、便捷、专业的服务需求,而上门服务家政系统的出现,正以其独特的技术优势,引领家政行业迈向…

landsat8数据产品说明

1、下载数据用户手册 手册下载网址,搜索landsat science关键词,并点击到官网下载。 2、用户手册目录 3、landsat8数据产品说明 具体说明在手册的第四章,4.1.4数据产品章节,具体描述如下: 英文意思: L8 的…

SSM学习——Spring AOP与AspectJ

Spring AOP与AspectJ 概念 AOP的全称为Aspect-Oriented Programming,即面向切面编程。 想象你是汉堡店的厨师,每一份汉堡都有好几层,这每一层都可以视作一个切面。现在有一位顾客想要品尝到不同风味肉馅的汉堡,如果按照传统的方…

RFID:锂电池自动化产线的智能监护者

RFID:锂电池自动化产线的智能监护者 一个拥有尖端工业科技的黑灯工厂里,自动化技术已经代替大部分的人工,在每天的自动化生产中会有大量的产品问世。但是人员少,自动化多的工厂怎么做生产管理,产品溯源呢?…

一定要学会的考研数学刷题方法,效果真的炸裂‼️

以1800题为例 1800是知识覆盖的最全面的,但要是刷的方法不对,它就是一个大坑。第一章我记得刷了整整一周。动不动就卡住,而且题目质量真的有点堪忧,答案跳步跳的真的怀疑人生,有时候看个答案都能看半天。而且1800的题…

正大国际:什么是qi货合约?

期货合约是一种标准化的、在期货交易所进行交易的合约。它规定了在未来某个特定时间点以约定价格买入或卖出某种特定商品或金融工具的义务。期货合约的买卖双方都需要遵守交易所的规定和交易规则 期货合约的主要特点包括: 标准化:期货合约规定了商品的品…

企业客户信息反馈平台的设计与实现|Springboot+ Mysql+Java+ B/S结构(可运行源码+数据库+设计文档)

本项目包含可运行源码数据库LW,文末可获取本项目的所有资料。 推荐阅读300套最新项目持续更新中..... 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 2024年56套包含ja…

为什么品牌宣传需要深度稿件?媒介盒子揭秘

在信息洪流中,品牌想要占据用户心智仅靠传统的广告方式很难达成目标,只有真正有价值的信息才能吸引用户注意力,品牌方可以通过深度稿件来实现。 深度传播稿是一种高质量的、需要花费较长时间和精力来撰写的宣传文章,篇幅较长&…

Leetcode 322. 零钱兑换

心路历程: 这道题和上一道完全平方数的和基本上一摸一样,甚至比上一道题还简单,基于dp的建模: 状态:当前的目标总金额 动作:选哪一个硬币 返回值:凑成该目标总金额的最少硬币个数 这道题如果硬…

建议有这些需求的企业部署SD-WAN!

SD-WAN技术在当今企业网络领域引领着一股新的风潮。其通过软件控制和管理广域网连接,为企业提供了更加灵活、智能和高效的网络解决方案。SD-WAN都具备广泛的适用性,特别适合以下几类企业场景: 分布式企业: 对于跨越多个地理位置的…

boost库搜索引擎

文章目录 0. 前言1. 搜索引擎原理2. 技术栈和项目环境3. 正排索引和倒排索引3.1 正排索引3.2 倒排索引3.3 模拟查找 4. 获取数据源5. 数据清洗5.1 保存路径5.2 解析文件提取标题提取内容构造url 5.4 保存内容 6. 建立索引6.1 建立正排索引6.2 建立倒排索引6.3 构建索引 7. 搜索…