【NLP】BERT和原理揭示

一、说明

        BERT(来自transformer的双向编码器表示)是Google AI Language研究人员最近发表的一篇论文。它通过在各种NLP任务中展示最先进的结果,在机器学习社区引起了轰动,包括问答(SQuAD v1.1),自然语言推理(MNLI)等。

        BERT的关键技术创新是将流行的注意力模型Transformer的双向训练应用于语言建模。这与以前的工作形成鲜明对比,以前的努力从左到右查看文本序列或从左到右和从右到左的组合训练。论文的结果表明,双向训练的语言模型比单向语言模型具有更深入的语言上下文和流动感。在论文中,研究人员详细介绍了一种名为蒙面LM(MLM)的新技术,该技术允许在以前不可能的模型中进行双向训练。

二、背景资料

        在计算机视觉领域,研究人员反复展示了迁移学习的价值——在已知任务(例如ImageNet)上预先训练神经网络模型,然后进行微调——使用经过训练的神经网络作为新的特定目的模型的基础。近年来,研究人员已经证明,类似的技术在许多自然语言任务中都很有用。

        一种不同的方法,在NLP任务中也很流行,并在最近的ELMo论文中举例说明,是基于特征的训练。在这种方法中,预先训练的神经网络产生词嵌入,然后将其用作NLP模型中的特征。

2.1 BERT如何工作

        BERT利用变形金刚,这是一种注意力机制,可以学习文本中单词(或子单词)之间的上下文关系。在其原版形式中,Transformer 包括两种独立的机制——读取文本输入的编码器和生成任务预测的解码器。由于BERT的目标是生成语言模型,因此只需要编码器机制。Transformer的详细工作原理在Google的一篇论文中进行了描述。

        与按顺序(从左到右或从右到左)读取文本输入的方向模型相反,Transformer 编码器一次读取整个单词序列。因此,它被认为是双向的,尽管说它是非定向的会更准确。此特征允许模型根据单词的所有周围环境(单词的左侧和右侧)学习单词的上下文。

        下图是变压器编码器的高级描述。输入是一系列令牌,这些令牌首先嵌入到向量中,然后在神经网络中进行处理。输出是大小为 H 的向量序列,其中每个向量对应于具有相同索引的输入标记。

        在训练语言模型时,定义预测目标存在挑战。许多模型预测序列中的下一个单词(例如,“孩子从___回家”),这是一种定向方法,本质上限制了上下文学习。为了克服这一挑战,BERT使用两种培训策略:

2.2 Mask-LM(传销)

        在将单词序列输入BERT之前,每个序列中15%的单词将替换为[MASK]标记。然后,该模型尝试根据序列中其他非屏蔽单词提供的上下文来预测被屏蔽单词的原始值。用技术术语来说,输出单词的预测需要:

  1. 在编码器输出顶部添加分类图层。
  2. 将输出向量乘以嵌入矩阵,将它们转换为词汇维度。
  3. 使用 softmax 计算词汇表中每个单词的概率。

        BERT损失函数仅考虑屏蔽值的预测,而忽略非屏蔽词的预测。因此,该模型的收敛速度比定向模型慢,这一特征被其增加的上下文感知所抵消(参见要点#3)。

        注意:在实践中,BERT实现稍微复杂一些,并没有取代所有15%的屏蔽词。 有关其他信息,请参阅附录 A。

2.3 下一句预测 (NSP)

        在BERT训练过程中,模型接收成对的句子作为输入,并学习预测对中的第二个句子是否是原始文档中的后续句子。在训练过程中,50% 的输入是一对,其中第二句是原始文档中的后续句子,而在另外 50% 的输入中,语料库中的随机句子被选择为第二句。假设随机句子将与第一个句子断开连接。

为了帮助模型在训练中区分这两个句子,在进入模型之前,将按以下方式处理输入:

  1. [CLS] 标记插入到第一个句子的开头,[SEP] 标记插入到每个句子的末尾。
  2. 指示句子 A 或句子 B 的句子嵌入将添加到每个标记中。句子嵌入在概念上类似于词汇量为 2 的标记嵌入。
  3. 位置嵌入将添加到每个标记中,以指示其在序列中的位置。位置嵌入的概念和实现在转换器论文中介绍。

资料来源:BERT [Devlin 等人,2018 年],经过修改

为了预测第二个句子是否确实与第一个句子相连,请执行以下步骤:

  1. 整个输入序列通过变压器模型。
  2. [CLS] 令牌的输出使用简单的分类层(学习的权重和偏差矩阵)转换为 2×1 形向量。
  3. 使用 softmax 计算 IsNextSequence 的概率。

在训练BERT模型时,掩码LM和下一句预测一起训练,目的是最小化两种策略的组合损失函数。

2.4 如何使用BERT(微调)

        将BERT用于特定任务相对简单:

        BERT可用于各种语言任务,而只需在核心模型中添加一小层:

  1. 情绪分析等分类任务的完成方式与“下一句”分类类似,方法是在 [CLS] 令牌的转换器输出顶部添加分类层。
  2. 在问答任务(例如 SQuAD v1.1)中,软件接收有关文本序列的问题,并需要在序列中标记答案。使用BERT,可以通过学习两个额外的向量来训练问答模型,这两个向量标志着答案的开始和结束。
  3. 在命名实体识别(NER)中,软件接收文本序列,并需要标记文本中出现的各种类型的实体(人员,组织,日期等)。使用 BERT,可以通过将每个令牌的输出向量馈送到预测 NER 标签的分类层来训练 NER 模型。

在微调训练中,大多数超参数与BERT训练中相同,本文对需要调优的超参数给出了具体的指导(第3.5节)。BERT团队使用这种技术在各种具有挑战性的自然语言任务上取得了最先进的结果,详见本文第4节。

三、特出优点

  1. 模型尺寸很重要,即使在大规模的情况下也是如此。BERT_large有345.110亿个参数,是同类模型中最大的。在小规模任务上,它明显优于BERT_base,后者使用相同的架构,“只有”<>.<> 亿个参数。
  2. 有了足够的训练数据,更多的训练步骤==更高的准确性。例如,在 MNLI 任务中,与相同批量大小的 1K 步相比,在 0M 步(1,128 字的批大小)上训练时,BERT_base准确率提高了 000.500%。
  3. BERT的双向方法(MLM)收敛速度比从左到右的方法慢(因为每批中只预测了15%的单词),但在少量的预训练步骤之后,双向训练仍然优于从左到右的训练。

Source: BERT [Devlin et al., 2018]

四、计算注意事项(训练和应用)

五、结论

        BERT无疑是使用机器学习进行自然语言处理的突破。它平易近人并允许快速微调的事实可能会在未来允许广泛的实际应用。在这个总结中,我们试图描述论文的主要思想,同时不淹没在过多的技术细节中。对于那些希望更深入的人,我们强烈建议阅读其中引用的完整文章和辅助文章。另一个有用的参考是BERT源代码和模型,它们涵盖了103种语言,并由研究团队慷慨地作为开源发布。

六、附录 A — 单词掩码

        在BERT中训练语言模型是通过预测输入中随机选择的15%的令牌来完成的。这些令牌的预处理方式如下 - 80%替换为“[MASK]”令牌,10%替换为随机单词,10%使用原始单词。导致作者选择这种方法的直觉如下(感谢谷歌的Jacob Devlin的见解):

  • 如果我们 100% 使用 [MASK],模型不一定能为非屏蔽词生成良好的标记表示。非屏蔽标记仍用于上下文,但模型已针对预测屏蔽词进行了优化。
  • 如果我们在90%的时间内使用[MASK],在10%的时间内使用随机单词,这将告诉模型观察到的单词永远不会正确。
  • 如果我们在90%的时间内使用[MASK],并在10%的时间内保持相同的单词,那么模型就可以简单地复制非上下文嵌入。

        没有对这种方法的比率进行消融,并且在不同的比率下可能效果更好。此外,模型性能并未通过简单地屏蔽 100% 的选定令牌来测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/20114.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

免费的云数据库:探索PlanetScale,划分分支的MySQL Serverless平台

最近我发现了一个非常有趣的国外MySQL Serverless平台&#xff0c;它叫做PlanetScale。这个平台不仅仅是一个数据库&#xff0c;它能像代码一样轻松地创建开发和测试环境。你可以从主库中拉出一个与之完全相同结构的development或staging数据库&#xff0c;并在这个环境中进行开…

机器学习实践(2.1)LightGBM分类任务

前言 LightGBM也属于Boosting集成学习模型(还有前面文章的XGBoost)&#xff0c;LightGBM和XGBoost同为机器学习的集大成者。相比越来越流行的深度神经网络&#xff0c;LightGBM和XGBoost能更好的处理表格数据&#xff0c;并具有更强的可解释性&#xff0c;还具有易于调参、输入…

SIP协议学习(2)

文章目录 注册&#xff08;REGISTER&#xff09;1、AOR和Contact区别2、注册概述3、注册与定位服务4、注册超时处理5、注册消息6、多Contact地址处理7、下期预告 注册&#xff08;REGISTER&#xff09; 1、AOR和Contact区别 在学习注册之前&#xff0c;首先区分一下AOR和Cont…

《数学模型(第五版)》学习笔记(1) 第1章 建立数学模型 第2章 初等模型

参考数学建模论坛《数学模型(第三版)》学习笔记 http://www.madio.net/thread-146480-1-1.html 参考视频 数模视频&#xff08;姜启源、谢金星&#xff09; https://www.bilibili.com/video/BV1VJ411w7r3/?spm_id_from333.788.recommend_more_video.0&vd_source3ef6540f84…

MongoDB教程-5

复制是跨多个服务器同步数据的过程。复制在不同的数据库服务器上提供数据的多个副本&#xff0c;从而提供冗余并提高数据可用性。复制可防止数据库丢失单个服务器。复制还允许您从硬件故障和服务中断中恢复。通过增加数据拷贝&#xff0c;您可以将其中一个用于灾难恢复、报告或…

【STM32MP135】修复10.1寸屏显示异色问题,添加极性配置

文件路径&#xff1a;u-boot-stm32mp-v2021.10-stm32mp1-r1/drivers/video/stm32/stm32_ltdc.c

JavaScrpt_13 Web API 正则表达式

JavaScrpt_13 Web API 正则表达式 一、 正则表达式1. 正则基本使用2. 元字符边界符量词范围字符类 3. 替换和修饰符4. change 事件5. 判断是否有类 一、 正则表达式 正则表达式&#xff08;Regular Expression&#xff09;是一种字符串匹配的模式&#xff08;规则&#xff09;…

123.HTML5+CSS3完结_使用Netlify收取表单

Netlify也可以做表单接受&#xff1a; 我们启动一下 修改下表单 ● 接着在我们的网站输入并提交表单 ● 之后会有一个提示&#xff0c;提示我们提交成功 然后就能在Netlify接受到用户的表单 ● 当然这个表单只能接受100个&#xff0c;但是作为实验也够用了 到此&a…

BERT论文解读及实现(一)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 1 论文解读 1.1 模型概览 There are two steps in our framework: pre-training and fine-tuning. bert由预训练模型微调模型组成。 ① pre-training, the model is trained on unlabele…

观察者模式(下):如何实现一个异步非阻塞的EventBus框架?

上一节课中&#xff0c;我们学习了观察者模式的原理、实现、应用场景&#xff0c;重点介绍了不同应用场景下&#xff0c;几种不同的实现方式&#xff0c;包括&#xff1a;同步阻塞、异步非阻塞、进程内、进程间的实现方式。 同步阻塞是最经典的实现方式&#xff0c;主要是为了…

gulimall-性能监控-压力测试

性能监控与压力测试 前言一、性能监控1.1 jvm 内存模型1.2 jvisualvm 作用1.3 监控指标 二、压力测试2.1 概念2.2 性能指标2.3 JMeter 压测工具 前言 本文继续记录B站谷粒商城项目视频 P141-150 的内容&#xff0c;做到知识点的梳理和总结的作用。 一、性能监控 1.1 jvm 内存…

计算机网络实验(4)--配置网络路由

&#x1f4cd;实验目的 了解路由器的特点、基本功能及配置方法&#xff1b;使用模拟软件Packet Tracer 5.3熟悉Cisco路由器的操作&#xff1b;配置静态路由和距离矢量路由协议RIP&#xff0c;实现给定网络的连通&#xff1b;从而加深对IP编址、路由转发机制、路由协议、路由表…