深度学习-自注意力机制

文字编码

one-hot编码,让模型自己去学习怎么进行编码

常见的输出

1.每个词都有一个输出值

2.每个句子输出一个值,情感分类

3.输入与输出长度不对应,翻译任务,生成任务。

RNN最早的语言处理

RNN解决的是模型去考虑前面的输入

      RNN的缺点,每一代都要向传家宝中装东西,导致后面看不到祖先。

长短期记忆(LSTM,long short-term memory)

RNN与LSTM速度很慢,需要一代一代,无法一下生成全部。所以引入了自注意力机制。

自注意力机制的原理:

什么是注意力,分配给每个任务的注意力,注意力的高低是自己决定的。

注意力分配

如何计算注意力?

在不同的句子中,注意力应该不同,并且模型要有学习设置注意力的能力。因此采用点乘的方式。

加了wq,wk得到的矩阵。

得到a1对其他的注意力分数。

利用soft-max对分数进行归一化,化为合为1的概率。

b1的生成过程:a1矩阵化为q(通过wq),利用这个q与其他(a2、a3、a4)生成的w分别进行点乘,生成a1.1、a1.2、a1.3、a1.4。再讲a1、a2、a3、a4的value与a1.1、a1.2、a1.3、a1.4相乘。成绩和为b1。

总结过程为:

总公式可以表示为:

A:注意力矩阵。

Wq 和 Wk、Wv是学习到的权重矩阵

 bert,该图左侧部分构成了bert。右边为提取特征,然后再生成,即为GPT

bert就是一个特征提取器。

1.预训练

2.微调

 

自监督预训练

 

Bert结构

1.embedding

2.多层自注意力机制

3.池化输出

  

Bert的输出

 

EA,EB为给句子的编码

CLS相当于链表头,SEP相当于句号,句尾结束。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/443373.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NoSQL数据库简介

NoSQL数据库简介 Brief Introduction to NoSQL Databases By JacksonML 1. 什么是SQL? 在了解NoSQL之前,先简要介绍一下SQL。 SQL是 Structured Query Language(结构化查询语言)的缩写。 SQL在关系型数据中广泛使用&#xf…

IS-IS:06 ISIS路由汇总

与OSPF 协议相同, IS-IS 也能够通过路由聚合来减少路由条目。不同的是,OSPF 只能在ABR 和ASBR 路由器上进行路由聚合,而IS-IS 路由器能否进行路由聚合以及对什么样的路由才能进行聚合取决于路由器的类型及路由的类型。 在IS-IS 网络中&#x…

生产问题排查系列——redis告警连接异常问题排查

项目背景 我们的项目使用redis的场景主要是有两种,一是使用redis缓存各种业务信息,二是使用redis做分布式锁。主要是引用了两个框架jedis和redisson。 Jedis是Redis的Java实现的客户端,其API提供了比较全面的Redis命令的支持; …

第16次修改了可删除可持久保存的前端html备忘录:做个可以隐藏的文本操作窗口,添加了选择文本拖动复制,配了背景主题:现代深色

第16次修改了可删除可持久保存的前端html备忘录&#xff1a;隐藏了文本操作按钮&#xff0c;添加了选择文本拖动复制&#xff0c;配了背景主题&#xff1a;现代深色 备忘录代码&#xff1a; <!DOCTYPE html> <html lang"zh-CN"><head><meta ch…

代码随想录算法训练营第二二天| 二叉搜索树的最近公共祖先、二叉搜索树中的插入操作、删除二叉搜索树中的节点

目录 二叉搜索树的最近公共祖先二叉搜索树中的插入操作删除二叉搜索树中的节点普通二叉树的删除方式 LeetCode 235. 二叉搜索树的最近公共祖先 LeetCode 701.二叉搜索树中的插入操作 LeetCode 450.删除二叉搜索树中的节点 二叉搜索树的最近公共祖先 给定一个二叉搜索树, 找到…

腾讯云SDK并发调用优化方案

目录 一、概述 二、 网关的使用 2.1 核心代码 三、腾讯云SDK依赖包的改造 一、概述 此网关主要用于协调腾讯云SDK调用的QPS消耗&#xff0c;使得多个腾讯云用户资源能得到最大限度的利用。避免直接使用腾讯云SDK 时&#xff0c;在较大并发情况下导致接口调用异常。网关的工…

漏洞原理SSRF漏洞

漏洞原理SSRF漏洞 服务器请求伪造 SSRF(Server Side Request Forgery)是一种服务器端请求伪造漏洞。它允许攻击者利用后端服务器来发送未经授权的请求。攻击者可以通过修改请求的目标地址,将请求发送到内部网络或其他受信任的服务器上,从而绕过防火墙和访问控制。 SSRF漏洞…

Pyecharts绘制多种炫酷气泡图

Pyecharts绘制多种炫酷气泡图 引言 数据可视化是数据分析中不可或缺的一环&#xff0c;而Pyecharts作为一款基于Echarts的Python图表库&#xff0c;提供了丰富的图表类型&#xff0c;其中气泡图是一种常用于展示三维数据的炫酷图表。本文将介绍如何使用Pyecharts绘制多种炫酷…

91 C++对象模型探索。RTTI运行时类型识别回顾 与 存储位置介绍

一&#xff0c;RTTI 运行时类型识别&#xff0c;简单回顾 C运行时类型识别RTTI&#xff0c;要求父类这种必须 至少有一个虚函数&#xff0c;如果父类中没有虚函数&#xff0c;那么得到的RTTI就不准确&#xff1b; RTTI就可以在执行期间查询一个多态指针&#xff0c;或者多态应…

五大架构风格之一:数据流风格

数据流风格详细介绍 系统架构数据流风格是一种软件体系结构风格&#xff0c;它强调了系统内部不同部分之间的数据流动。这种风格侧重于描述系统中的数据处理过程&#xff0c;以及数据是如何从一个组件传递到另一个组件的。以下是系统架构数据流风格的详细介绍&#xff1a; 1 基…

中国建设银行,这年终奖噶噶高!!!!(含算法原题)

国企年终 今天刷到一个近期帖子:「中国建设银行&#xff0c;这年终奖噶噶高!!!!」 先撇去具体内容不看&#xff0c;能在自然年的 月初&#xff0c;就把去年的奖金发了的企业&#xff0c;首先值得一个点赞。 再细看内容&#xff0c;年终奖是一个 字头的 位数。 由于国企通常没…

项目:博客

1. 运行环境&#xff1a; 主机 主机名 系统 服务 192.168.223.129 Server_Web Linux Web 192.168.48.131 Server-NFS-DNS Linux NFS/DNS 2. 基础配置 配置主机名&#xff0c;静态IP地址 开启防火墙并配置 部分开启SElinux并配置 服务器之间使用同ntp.aliyun.com进行…