【论文系列】之 ---- BERT

news/2025/1/20 14:57:19/文章来源:https://www.cnblogs.com/myleaf/p/18538382

BERT（Bidirectional Encoder Representation from Transformers）

机器阅读理解领域
从名字很好理解，主要使用的方法是Transformer的方法。。进行机器翻译等操作

（1）词嵌入Embedding

词嵌入又有三个部分组成：

Token Embedding

Segment Embedding

Posiiton Embedding

文本出现的位置，进行编码

（2）Transformer Encoder

使用了我们熟知的多头注意力机制

（3）预训练

BERT是一个多任务模型，它的预训练（Pre-training）任务是由两个自监督任务组成，即MLM和NSP

MLM

MLM是指在训练的时候随即从输入语料上mask掉一些单词，然后通过的上下文预测该单词，该任务非常像我们在中学时期经常做的完形填空。

在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后，做以下处理。
80%的时候会直接替换为[Mask]，将句子 "my dog is cute" 转换为句子 "my dog is [Mask]"。
10%的时候将其替换为其它任意单词，将单词 "cute" 替换成另一个随机词，例如 "apple"。将句子 "my dog is cute" 转换为句子 "my dog is apple"。
10%的时候会保留原始Token，例如保持句子为 "my dog is cute" 不变。
-----摘自知乎

NSP（Next Sentence Prediction)

判断句子B是否是句子A的下文。如果是的话输出’IsNext‘，否则输出’NotNext‘。

输入 = [CLS] 我 喜欢 玩 [Mask] 联盟 [SEP] 我 最 擅长 的 [Mask] 是 亚索 [SEP]类别 = IsNext输入 = [CLS] 我 喜欢 玩 [Mask] 联盟 [SEP] 今天 天气 很 [Mask] [SEP]类别 = NotNext

(4)微调

模型微调
原文网址
这里按照自己的理解对该文做出总结

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/830790.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【神经网络组件】Transformer Encoder

【神经网络组件】Transformer Encoder 目录【神经网络组件】Transformer Encoder1. seq2seq模型2. 为什么只需要Transformer Encoder3. Transformer Encoder的结构 1. seq2seq模型什么是sequence：sequence指由多个向量组成的序列。例如，有三个向量：\(\mathbf{a} = [1,0,0]^T…

黑马PM- B端产品-B端基础知识

什么是B端产品B端产品市场介绍B端产品常见分类B端与C端产品区别供应链简介

Roma and Poker

算法因为这题是从差分约束专题来的, 所以肯定要朝着化为不等式的方向化简令 \(TimeW_i, TimeD_i, TimeL_i\) 表示原串前 \(i\) 位中 \(W, D, L\) 的个数令 \(W_i, D_i, L_i\) 表示最后结果中前 \(i\) 位 \(W, D, L\) 的个数根据原串有 \[\left\{ \begin{array}{lr} W_i \…

Cocos Creator 如何调试代码？

一、方式调试代码两种方式：在VS code中调试在浏览器中调试二、调试一：VS Code中Chrome浏览器打开VS Code中的插件下载Debugger for Chrome/JavaScript Debugger 打开Cocos Creator点击菜单中的开发者选项选择Visual Studio Code 工作流 -> 添加Chrome debug配置,此时VS…

旋转矢量合成，两个圆圈

import numpy as np import matplotlib.pyplot as plt from matplotlib.patches import Circle, FancyArrowPatch from matplotlib.animation import FuncAnimation# 创建一个新图和两个坐标轴 fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 6))# 设置坐标轴的等比例，确…

华三配置mstp

S1配置 stp mode mstp stp region-configuration region-name a revision-level 1 instance 1 vlan 10 instance 2 vlan 20 active region-configuration qu stp instance 1 root primary stp instance 2 root secondary stp global enable === S2配置 stp region-configuratio…