大模型面试准备（十五）：BERT 工作流程-编程知识

大模型面试准备（十五）：BERT 工作流程

news/2025/1/11 17:46:28/文章来源:https://blog.csdn.net/2401_84033492/article/details/137657616

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。

合集在这里：《大模型面试宝典》(2024版) 正式发布！

可以将预训练的 BERT 假设为一个黑匣子，它为序列中的每个输入标记（单词）提供 H = 768 个形状的向量。BERT 本质上是由堆叠的编码器层组成。

Token Embeddings是通过索引一个30000x768矩阵得到的，权重在训练中学习；Segment Embeddings用于指示句子来源，全0或全1向量表示；Position Embeddings则用于指定单词在序列中的位置，是一个具有预设模式的常数矩阵。这些构成了BERT嵌入的重要组成部分。

BERT的工作原理

可以将预训练的 BERT 假设为一个黑匣子，它为序列中的每个输入标记（单词）提供 H = 768 个形状的向量。 这里，序列可以是单个句子或由分隔符 [SEP] 分隔并以标记 [CLS] 开头的一对句子。

BERT为输入句子中的所有单词得到一个 768 大小的向量。

BERT的本质

BERT 本质上是由堆叠的编码器层组成。

在论文中，作者尝试了两种模型：

BERT 基础：层数 L=12，隐藏层大小，H=768，自注意力头，A=12，总参数=110M
BERT Large：层数 L=24，隐藏层大小，H=1024，自注意力头，A=16，总参数=340M

BERT的Embedding流程

Token Embeddings是通过索引一个30000x768矩阵得到的，权重在训练中学习；Segment Embeddings用于指示句子来源，全0或全1向量表示；Position Embeddings则用于指定单词在序列中的位置，是一个具有预设模式的常数矩阵。这些构成了BERT嵌入的重要组成部分。

Token Embeddings

我们通过索引一个大小为30000x768（H）的矩阵来得到Token嵌入。在这里，30000是wordpiece分词后的词汇表长度。这个矩阵的权重将在训练过程中学习得到。

Segment Embeddings

指定这个句子来自哪个段落。如果嵌入来自句子1，则这些都是长度为H的全0向量；如果嵌入来自句子2，则这些是一个全1向量。

Position Embeddings

这些嵌入用于指定单词在序列中的位置，这与我们在转换器（transformer）架构中所做的相同。因此，我们本质上有一个具有一些预设模式的常数矩阵。这个矩阵的列数为768。这个矩阵的第一行是标记[CLS]的嵌入，第二行是单词“my”的嵌入，第三行是单词“dog”的嵌入，以此类推。

预训练掩码语言模型

通过尝试不同的训练模型并找出各自的缺陷，来逐步解释模型架构，并最终了解BERT的工作原理。

预测所有单词

BERT 预训练掩码语言模型设置如下：

结果：预测所有单词。

问题：学习任务很琐碎。

原因：网络事先知道它要预测什么，因此可以轻松学习权重以达到 100% 的分类准确度。

仅预测被掩码的单词

在每个训练输入序列中屏蔽 15% 的随机单词，并仅预测这些单词的输出。

结果：仅预测被掩码的单词。

现在模型学会了预测它未见过的单词，同时看到了这些单词周围的所有上下文。在这个示例中，我们掩码了3个单词，而实际上应该只掩码1个单词，因为8的15%是1。

问题：这个模型基本上学会了只针对[MASK]标记预测出好的概率。 也就是说，在预测时间或微调时间，当模型没有收到[MASK]作为输入时，它无法预测出好的上下文嵌入。

预测被掩码的单词和随机单词

在这次尝试中，仍然会屏蔽 15% 的仓位。但将用一些随机单词替换 20% 的屏蔽标记中的任何单词。这样做是想让模型知道当单词不是 [MASK] 标记时我们仍然需要一些输出。

因此，如果有一个长度为 500 的序列，将屏蔽 75 个标记（500 个标记的 15%），在这 75 个标记中，15 个标记（75 个标记的 20%）将被随机单词替换。如图所示，这里用随机单词替换了一些掩码。

结果：预测被掩码的单词和随机单词。

优势：现在网络仍然可以处理任何单词。

问题：网络学会了输入单词永远不会等于输出单词。也就是说，在“随机单词”位置上的输出向量永远不会是“随机单词”。

预测被掩码的单词、随机单词和非掩码单词

训练数据生成器会随机选择15%的标记位置进行预测。如果选择了第i个标记，我们会用以下方式替换它：(1) 80%的时间用[MASK]标记替换第i个标记 (2) 10%的时间用一个随机标记替换第i个标记 (3) 10%的时间第i个标记保持不变。

因此，如果我们有一个长度为500的序列，我们会掩码75个标记（500的15%），在这75个标记中，有7个标记（75的10%）会被随机词替换，有7个标记（75的10%）将保持不变。从图像上看，我们会用随机词替换一些掩码，并用实际词替换一些掩码。

结果：预测被掩码的单词、随机单词和非掩码单词。

因此，现在我们有了最佳的设置，模型不会学习任何不良的模式。

但是，如果我们只保留掩码+非掩码的设置呢？模型会学到每当单词出现时，就预测那个单词。

总结

本文重点讨论了预训练掩码语言模型的不同训练策略，包括预测所有单词、仅预测被掩码的单词、预测被掩码的单词和随机单词以及预测被掩码的单词、随机单词和非掩码单词。通过这些不同的训练策略，BERT能够学习到更加丰富的语言表示，提高模型的泛化能力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/620476.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

C语言编程环境详解（Vscode编辑器基础上C语言编程环境搭建详细教程步骤）

C语言编程环境详解（Vscode编辑器基础上C语言编程环境搭建详细教程步骤）

1、语言分类介绍编译型语言：C、C 解释型语言：Python、Js 2、C语言编译器 GCC系列： GNU编译器套装(英语：GNU Compiler Collection，缩写为GCC)，指一套编程语言编译器，常被认为是跨平台编译器的事…

阅读更多...

Vue3 中vue-quill富文本编辑器图片缩放

Vue3 中vue-quill富文本编辑器图片缩放

导包 import BlotFormatter from quill-blot-formatter/dist/BlotFormatter; Quill.register(modules/blotFormatter, BlotFormatter) 添加配置 blotFormatter: {modules: ["Resize", "DisplaySize", "Toolbar"]}, 注： 该编辑器已经…

阅读更多...

c++的学习之路：4、入门（3）

c++的学习之路：4、入门（3）

摘要本章将介绍一下auto、for和指针空值，文章末附上入门的所有代码。目录摘要一、auto 二、for 三、指针空值四、代码五、思维导图一、auto 这个关键字是c提出的，可以自动识别变量的类型，可以看出下方图片，auto自…

阅读更多...

关于《CS创世 SD NAND》的技术学习分享

关于《CS创世 SD NAND》的技术学习分享

最近发现一个好玩的东西《CS创世 SD NAND》，带大家一起体验一下。本文引用了部分厂家产品资料及图像，如有侵权，请及时联系我删除，谢谢。《CS创世 SD NAND》官方网站：http://www.longsto.com/ 什么是CS创世 SD NAND呢…

阅读更多...

SkyWalking 为所有的API接口增加 tag

SkyWalking 为所有的API接口增加 tag

背景胡扯线上接口报错，接着被 SkyWalking 抓到，然后 SkyWalking 触发告警，最后老板你，让你辛苦一下，在明早上班前把这个bug 改了，并告诉你你是全公司的希望。谁说不是呢？为公司业务保驾护航&a…

阅读更多...

网易之变：从三款MMO游戏踏入同一条武侠赛道开始

网易之变：从三款MMO游戏踏入同一条武侠赛道开始

网易研发了三年的武侠MMO游戏《燕云十六声》正式定档7月26日。近些年关注网易游戏产品的朋友不难发现一个奇怪的现象： 《逆水寒手游》，2023年6月公测，根据锌财经报道，研发成本约为8亿元； 《射雕》，2024…

阅读更多...

学习JQuery——简介

学习JQuery——简介

目录前言 JQuery简介 JQuery语法 JQuery入口函数对比JavaScript 入口函数 JQuery选择器元素选择器 JQuery事件鼠标事件键盘事件前言前言 JQuery简介 JQuery官网官方描述： jQuery是一个快速、小巧且功能丰富的JavaScript库。它使诸如HTML文档遍…

阅读更多...

20、矩阵-旋转图像

20、矩阵-旋转图像

解题方法这个问题是关于如何将一个矩阵顺时针旋转90度。为了解决这个问题，我们可以采用以下步骤： 转置矩阵：首先，我们需要对矩阵进行转置。转置意味着将矩阵的行变成列，列变成行。对于矩阵中的每个元素matrix[i][j]&…

阅读更多...

Linux知识点（3）

Linux知识点（3）

文章目录 11. 进程间通信11.1 管道11.1.0 |11.1.1 匿名管道11.1.2 命名管道11.1.3 用匿名管道形成进程池 11.2 system V共享内存11.2.1 system V函数11.2.2 system 命令 11.3 system V消息队列11.4 system V 信号量 12. 进程信号12.1 前台进程和后台进程12.1.1 jobs12.1.2 fg &…

阅读更多...

Python+Appium自动化测试(ios+Android)

Python+Appium自动化测试(ios+Android)

一、软件安装安装清单： JDKPythonnode.jsandroid-sdk(作者通过Android Studio安装)iOS-deploybrewlibimobiledevice依赖库ideviceinstallercarthage依赖库 appium-doctor（安装后可在命令行中通过命令:appium-doctor检查还少啥） WebDriverAg…

阅读更多...

LOCK、ACC、ON、START的含义及正确使用

LOCK、ACC、ON、START的含义及正确使用

背景前段时间在开发一个远程锁车的需求时，讨论到了电源状态的场景。由于初次进入汽车电子行业，对很多基础概念不清晰。当时听主机厂商的同事介绍一遍后，并不是很理解。于是趁着空闲，给自己充充电，也希望能够帮到有需…

阅读更多...

每帧纵享丝滑——ToDesk云电脑、网易云游戏、无影云评测分析及ComfyUI部署

每帧纵享丝滑——ToDesk云电脑、网易云游戏、无影云评测分析及ComfyUI部署

目录一、前言二、云电脑性能测评分析2.1、基本配置分析2.1.1、处理器方面2.1.2、显卡方面2.1.3、内存与存储方面2.1.4、软件功能方面 2.2、综合跑分评测三、软件应用实测分析3.1、云电竞测评3.2、AIGC科研测评——ComfyUI部署3.2.1、下载与激活工作台3.2.2、加载模型与体验3.…

阅读更多...

推荐文章

最新文章