【霹雳吧啦Wz】Transformer中Self-Attention以及Multi-Head Attention详解

文章目录

来源

b站视频

前天啥也不懂的时候点开来一看,各种模型和公式,直接头大,看完DASOU的视频后,重新来看,串起来了,一下子明白了,霹雳吧啦对细节有了更好的描述。

【DASOU视频记录】Transformer从零详细解读

Transformer起源

Transformer是2017年Google在Computation and Language上发表的,当时主要是针对自然语言处理领域提出的

Self-Attention

1. 求q、k、v

在这里插入图片描述
多个q、k、v可以叠在一起用矩阵来做
在这里插入图片描述

2. 计算 a ^ ( s o f t m a x 那块 ) \hat{a} (softmax那块) a^(softmax那块)

在这里插入图片描述同样可以堆在一起计算
在这里插入图片描述

3. 乘V,计算结果

在这里插入图片描述

Multi-Head Attention

多头就是给定多套q、k、v矩阵
在这里插入图片描述
在这里插入图片描述q第一个上标 表示第几个词向量,第二个上标 表示第几头
在这里插入图片描述
在这里插入图片描述

合并:将所有词向量合并在一起,得到x头个b

在这里插入图片描述

在这里插入图片描述

位置编码

如果没有位置编码,输入的顺序改变会导致不同的结果(不同线程抢占可能导致输入顺序改变。
在这里插入图片描述所以输入词向量embedding后加上位置编码结果作为模型输入。
在这里插入图片描述

这个视频主要用小例子将公式过了一遍,可以用来加深对整体过程细节的认识和把控。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/14019.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pycharm 打开终端,安装第三方程序

鼠标移动到左下角 弹出列表,选择终端,当然也可以用快捷键唤出, 可以输入命令进行第三方库的安装

EMQ X(3):客户端websocket消息收发

在EMQ X Broker提供的 Dashboard 中 TOOLS 导航下的 Websocket 页面提供了一个简易但有效的WebSocket 客户端工具,它包含了连接、订阅和发布功能,同时还能查看自己发送和接收的报文数据,我们期望 它可以帮助您快速地完成某些场景或功能的测试…

基于深度学习的高精度球场足球检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于深度学习的高精度球场足球检测识别系统可用于日常生活中或野外来检测与定位球场足球目标,利用深度学习算法可实现图片、视频、摄像头等方式的球场足球目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5…

开启Windows共享文件夹审核,让用户查看谁删除了文件

在动画行业有个常用到的需求, 我的共享文件夹内的文件被谁删除了,查不到,只能查看谁创建,谁修改的,但查不到谁删除的,分享一下: 1 开始->运行->gpedit.msc 开发本地组策略编辑器, 在计算…

查找列表中最小的N个元素nsmallest()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 查找列表中最小的N个元素 nsmallest() 选择题 以下python代码输出正确的一项是? import heapq list[11,12,13,14,15] print("【显示】list ", list) print("【执行】heapq.nsm…

88、基于STM32单片机学习型搬运机器人四自由度机械臂机械手遥感控制设计(程序+原理图+PCB源文件+参考论文+硬件设计资料+元器件清单等)

单片机主芯片选择方案 方案一:AT89C51是美国ATMEL公司生产的低电压,高性能CMOS型8位单片机,器件采用ATMEL公司的高密度、非易失性存储技术生产,兼容标准MCS-51指令系统,片内置通用8位中央处理器(CPU)和Flash存储单元&a…

STM32速成笔记—Flash闪存

文章目录 一、Flash简介二、STM32F1的Flash三、Flash操作步骤四、程序设计4.1 读取数据4.2 写入数据(不检查)4.3 写入数据(检查) 五、注意事项 一、Flash简介 快闪存储器(flash memory),是一种…

单摆模型仿真(SMART PLC梯形图实现)

单摆模型详细介绍这里不再赘述,大家可以参看下面文章链接,单摆模型的仿真有助于大家理解分析力学的有关知识,同时模型的实现可以帮助大家更好的理解和运用微分和积分这2个强有力的工具。 单摆模型(博途PLC和Simulink仿真对比)_RXXW_Dor的博客-CSDN博客单摆模型的详细推导公…

网联V2X视频事件检测相机使用说明书

1 产品概览 网联 V2X视频事件检测相机 视频事件检测相机 ,内置 1/1.8″逐行扫描 800万像素传感器;视 万像素传感器;视 频编码协议支持 H.265、H.264、MJPEG;具有 1个 10M/100M/1000M自适应以 太网 RJ45接口、 1路 RS485接口&#…

高楼的思考

博主是个高楼迷,会入职当前所在的公司有一定程度上也受此影响(办公地点为华南第一高楼)。 大概头条的大数据平台给我打的其中一个标签就是高楼迷,所以经常会给我推送一些高楼相关的文章。最有印象的便是深圳200米以上高楼数远超纽…

如何用手机制作3D人物模型素材

3D人物模型素材是现代3D游戏和电影制作中必不可少的一部分。它们是数字艺术家和设计师们用来创造逼真世界的关键。3D人物模型素材是用计算机程序制作的虚拟人物,可以被用于电影、电视、游戏和虚拟现实应用中。它们可以被用来代替实际演员,也可以被用来创…

程序请求报错java.lang.NoSuchMethodError

[23-7-3 9:09:19:069 CST] 00000017 ServletWrappe E com.ibm.ws.webcontainer.servlet.ServletWrapper service SRVE0068E:应用程序 east5_20230629_war 中 servlet XXX 的某一服务方法创建了未捕获到的异常。 创建的异常:org.springframework.web.util.NestedServ…