self-attention机制详解

目前,对于我们的network,给定的input大都是一个向量:
在这里插入图片描述
但是对于更复杂的情况,我们的input是a set of vec:
在这里插入图片描述

举例:
nlp中的句子,对于每个word都是一个word embedding:
在这里插入图片描述
图学习中每个节点有一个embedding:
在这里插入图片描述那我们的output都是什么样子呢?
第一种:输入与输出数量相同,每个embedding都有一个label(sequence labeling):
在这里插入图片描述
第二种:整个输入有一个label:
在这里插入图片描述第三种:model自己决定有多少长度的输出(seq2seq):
在这里插入图片描述
对于第一种问题,假设我们要进行的是预测词性的任务,即:
在这里插入图片描述只用每个word embedding加一个fc是不行的,model无法对第二个和第四个saw预测出不同的词性,那么我们就需要consider the context,这就是self-attention的作用:
在这里插入图片描述经过self-attention后生成的新的word enbedding就包含了整个context的信息,也可以使用多个attention层叠加:
在这里插入图片描述最出名的一篇文章:Attention is all you need,在这篇文章里谷歌提出了Transformer,这个后面再谈,我们先来看看attention的运作方式。
实现对整个context的关注,最简单的想法就是把他们全连接起来:
在这里插入图片描述但是,对于a1生成b1来说,我们不能直接融合所有的embedding,我们的模型应该可以找到a这一层其他的向量哪些对a1是相关的、重要的,可以帮助判断a1类型的embedding,那么,对a1和每一个em的相关性,用一个α表示:
在这里插入图片描述那么我们的attention模型,就需要可以计算出每两个向量之间的α,常用的方法:
在这里插入图片描述Dot-product是目前最常用的方法,也是transformer中的方法,那么在attention中就是这样的:
在这里插入图片描述如图计算a1与所有向量的α,用的都是Dot-product的方法,再过一层softmax,生成a1对每个向量的注意力。
得到α后,我们已经知道a1和哪些向量是最有关联性性的,那么下一步就是根据α抽取信息,即:
在这里插入图片描述最终得到b1,就是融合了attention信息的新的表示,对于每一个向量我们都进行同样的操作,这个操作是同时进行的。
公式推导有空再写。
笔记整理自台大李宏毅自注意力机制和Transformer详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/334409.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎么申请便宜的IP证书

IP证书是数字证书的一种,现在大多数数字证书都是针对有域名地址的网站,而IP证书是为只有公网IP地址的网站提供的安全加密手段之一。随着互联网的蓬勃发展,越来越多的只有公网IP地址的网站想要创建一个安全的上网环境,防止数据被窃…

R语言快速学习笔记

1、R 语言赋值使用的是左箭头 <- 符号。 2、变量名可以 . 号开头&#xff0c;但是要注意 . 号开头后面不能跟着数字。 3、定义函数&#xff1a;使用 function 关键字&#xff0c;形式&#xff1a; function_name <- function(arg_1, arg_2, ...) {# 函数体# 执行的代码块…

自动化测试用例设计粒度

自动化测试用例的粒度指的是测试用例的细致程度&#xff0c;即每个测试用例检查的功能点的数量和范围。 通常&#xff0c;根据测试用例的粒度&#xff0c;可以被分为3种不同的层次&#xff0c;从更低层次的细粒度到更高层次的粗粒度。 第一种&#xff1a;单元测试 - 细粒度 …

Java实现基于GDAL将单波段影像转为三波段影像-唯一值渲染

在处理遥感影像的渲染时&#xff0c;经常需要处理单波段影像。单波段影像没有任何颜色&#xff0c;只有一个波段的值。渲染时只能采用色带拉伸、离散颜色、唯一值渲染这几种方式。直接将单波段影像转成三波段的影像&#xff0c;并将三个波段转为颜色对应的rgb值&#xff0c;这样…

贝塞尔曲线

贝塞尔曲线&#xff08;Bzier curve&#xff09;是应用于二维图形应用程序的数学曲线。一般的矢量图形软件通过它来精确画出曲线&#xff0c;贝兹曲线由线段与节点组成&#xff0c;节点是可拖动的支点&#xff0c;线段像可伸缩的皮筋&#xff0c;我们在绘图工具上看到的钢笔工具…

网络安全B模块(笔记详解)- Web渗透测试

Web渗透测试 1.通过渗透机Kali1.0对服务器场景PYsystem20192进行Web渗透测试(使用工具w3af的对目标Web服务器进行审计),在w3af的命令行界面下,使用命令列出所有用于审计的插件,将该操作使用的命令作为Flag值提交; 进入kali命令控制台中使用命令w3af_console进入w3af命令…

经验分享:知识库系统这样搭建轻松又高效

我们工作中遇到过这样的情况吗&#xff1f;找不到组织结构图&#xff0c;找不到某个报告模板&#xff0c;找不到工作流程说明… 还或者看到同事忙绿在重复劳动&#xff0c;却没办法高效地共享你的经验和知识&#xff1f;这些都表明你的公司可能正急需一个知识库系统。 知识库系…

springCould中的Config-从小白开始【10 】

目录 &#x1f32d;1.spring cloud Config是什么&#x1f636;‍&#x1f32b;️&#x1f636;‍&#x1f32b;️&#x1f636;‍&#x1f32b;️ &#x1f953;2.能干什么&#x1f636;‍&#x1f32b;️&#x1f636;‍&#x1f32b;️&#x1f636;‍&#x1f32b;️ &am…

【算法Hot100系列】有效的数独

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老导航 檀越剑指大厂系列:全面总结 jav…

【Scala】——流程控制

1 if-else 分支控制 让程序有选择的的执行&#xff0c;分支控制有三种&#xff1a;单分支、双分支、多分支 1.1单分支 if (条件表达式) {执行代码块 }1.2 双分支 if (条件表达式) {执行代码块 1 } else {执行代码块 2 }1.3 多分支 if (条件表达式1) {执行代码块 1 } else …

【C/C++】轻量级跨平台 开源串口库 CSerialPort

文章目录 1、简介2、支持的平台3、已经支持的功能4、Linux下使用5、使用vcpkg安装CSerialPort6、交叉编译7、效果图8、基于CSerialPort的应用8.1、CommMaster通信大师8.2、CommLite串口调试器 1、简介 Qt 的QSerialPort 已经是跨平台的解决方案&#xff0c;但Qt开发后端需要 Q…

Java泛型:灵活多变的类型参数化工具

&#x1f451;专栏内容&#xff1a;Java⛪个人主页&#xff1a;子夜的星的主页&#x1f495;座右铭&#xff1a;前路未远&#xff0c;步履不停 目录 一、泛型1、什么是泛型2、泛型的语法 二、泛型类的使用1、泛型类的语法2、泛型如何编译的2.1、擦除机制2.2、为什么不能实例化泛…