Transformer梳理与总结

 其实transformer的成功也是源于对注意力机制的应用,其本质上还是可以归因于注意力机制,首先我们先来了解一下什么是注意力机制。在注意力机制的背景下,自主性提示被称为查询(query),给定任何查询,注意力机制通过注意力汇聚(attention pooling) 将选择引导至感官输入(sensory inputs,例如中间特征表示)
在这里插入图片描述
 通过给定的查询,与键值进行计算,得到不同的注意力权重,这里注意力汇聚操作是得到由查询和键值计算出的权重先进行加权 然后再求和 ,得到加权平均值,根据加权方式的不同又可以分为非参注意力汇聚和带参注意力汇聚

非参数注意力汇聚(Nadaraya-Watson kernel regression)

 x是查询, ( x i , y i ) (x_i,y_i) (xi,yi)是键值对,将查询x和键值对建模为注意力权重(attention weight),那么注意力汇聚操作就是对 y i y_i yi的加权平均
α ( x , x i ) = = > f ( x ) = ∑ i = 1 n K ( x − x i ) ∑ j = 1 n K ( x − x j ) y i , \alpha(x,x_i) ==>f(x)=\sum_{i=1}^n\frac{K(x-x_i)}{\sum_{j=1}^nK(x-x_j)}y_i, α(x,xi)==>f(x)=i=1nj=1nK(xxj)K(xxi)yi,
f ( x ) = ∑ i = 1 n α ( x , x i ) y i , f(x)=\sum_{i=1}^n\alpha(x,x_i)y_i, f(x)=i=1nα(x,xi)yi,
 为了便于理解,可以借鉴这个高斯核的例子
在这里插入图片描述

带参数注意力汇聚

 从上述高斯核的例子出发,在计算查询x和键值x_i之间的距离时,加入权重参数
f ( x ) = ∑ i = 1 n α ( x , x i ) y i = ∑ i = 1 n exp ⁡ ( − 1 2 ( ( x − x i ) w ) 2 ) ∑ j = 1 n exp ⁡ ( − 1 2 ( ( x − x j ) w ) 2 ) y i = ∑ i = 1 n softmax ( − 1 2 ( ( x − x i ) w ) 2 ) y i . \begin{aligned} f(x)& =\sum_{i=1}^n\alpha(x,x_i)y_i \\ &=\sum_{i=1}^n\frac{\exp\left(-\frac12((x-x_i)w)^2\right)}{\sum_{j=1}^n\exp\left(-\frac12((x-x_j)w)^2\right)}y_i \\ &=\sum_{i=1}^n\text{softmax}\left(-\frac12((x-x_i)w)^2\right)y_i. \end{aligned} f(x)=i=1nα(x,xi)yi=i=1nj=1nexp(21((xxj)w)2)exp(21((xxi)w)2)yi=i=1nsoftmax(21((xxi)w)2)yi.

注意力评分函数

  其实刚才讲的是两种注意力汇聚的方式,也就是说算一下查询值和键值之间的相似性,然后加权到y上。这里讲注意力汇聚的计算又进行了细化,通过softmax得到概率值之后再加权到值上,最终得到输出。注意力评分函数也就是研究怎么评判键值和查询值之间的相关性

在这里插入图片描述

加性注意力(additive attention)

 当查询和键是不同长度的矢量时(masked-softmax),可以使用加性注意力作为评分函数
a ( q , k ) = w v ⊤ t a n h ( W q q + W k k ) ∈ R , a(\mathbf{q},\mathbf{k})=\mathbf{w}_v^\top\mathrm{tanh}(\mathbf{W}_q\mathbf{q}+\mathbf{W}_k\mathbf{k})\in\mathbb{R}, a(q,k)=wvtanh(Wqq+Wkk)R,
 将查询和键连结起来后输入到一个多层感知机(MLP)中, 感知机包含一个隐藏层,其隐藏单元数是一个超参数h,通过使用tanh作为激活函数,并且禁用偏置项

缩放点积注意力(scaled dot-product attention)

 点积操作要求查询和键具有相同的长度,假设查询和键的所有元素都是独立的随机变量, 并且都满足零均值和单位方差,其评价函数为
a ( q , k ) = q ⊤ k / d . a(\mathbf{q},\mathbf{k})=\mathbf{q}^\top\mathbf{k}/\sqrt d. a(q,k)=qk/d .

多头注意力

 多头也就是说,独立学习多组注意力结果,然后再汇聚起来,相当于说,增加多样性,从多个角度看问题
在这里插入图片描述
h i = f ( W i ( q ) q , W i ( k ) k , W i ( v ) v ) ∈ R p v , \mathbf{h}_i=f(\mathbf{W}_i^{(q)}\mathbf{q},\mathbf{W}_i^{(k)}\mathbf{k},\mathbf{W}_i^{(v)}\mathbf{v})\in\mathbb{R}^{p_v}, hi=f(Wi(q)q,Wi(k)k,Wi(v)v)Rpv,
W o [ h 1 ⋮ h h ] ∈ R p o . \mathbf{W}_o\begin{bmatrix}\mathbf{h}_1\\\vdots\\\mathbf{h}_h\end{bmatrix}\in\mathbb{R}^{p_o}. Wo h1hh Rpo.
 如上式所示,给定一组qkv 就可以得到一个注意力结果h,且每个qkv都由权重w来决定,最后在汇聚时,也要乘以权重w,这些权重都是可学习参数

自注意力和位置编码

 我觉得这事其实很简单,自注意力也就是说,q k v 均有x乘以权重得到,然后使用上述的注意力汇聚机制进行计算
在这里插入图片描述

Transformer

 Transformer其实就是在完全基于注意力机制的基础上,构建了一个编码器-解码器架构
在这里插入图片描述
 每层都使用了残差连接,这里使用的layer normalization(关于为什么不适用batch normalizetion(13分钟)),之后添加了一个FFN层,等价于两层核窗口为1的一维卷积层。之后编码器的输出作为解码器种多头注意力的V(值)和K(键),而q呢,则是通过mask-attention逐个输入进来,mask机制让其只考虑要预测位置之前所有位置的特征值

VIT

 VIT证明了模型越大效果越好,成为了transformer在CV领域应用的里程碑著作,当拥有足够多的数据进行预训练的时候,ViT的表现就会超过CNN
在这里插入图片描述
 从上图可以看出,这个网络只有编码模块,并没有解码模块,通过多层编码之后,接一个MLP用于分类任务,作者只在论文中,证明了VIT可以在分类任务上,有很好的效果,对于分割、检测等其他任务,作者没有验证。

DETR

 将transformers运用到了object detection领域,并且取代了非极大值抑制、anchor generation
在这里插入图片描述
 作者首先通过CNN作为backbone 进行image embeding,然后再通过一个transformer 的encoder-decoder结构,之后通过FFN层预测目标位置,作者提出一张图中预测100个框,由于不做nms,作者采用的是匈牙利算法,进行最优匹配,每个true anchor都从这个100个预测结果中匹配到一个最优的预测,然后再进行后续损失的计算

MoCo

 这篇文章是基于对比学习机制,首先介绍一下对比学习
在这里插入图片描述

x i x_i xi属于正样本,其余的都属于负样本,上面画的 x i x_i xi通过 T 1 T_1 T1进行特征提取得到的是正样本,称为anchor,这里也作为q,通过 T 2 T_2 T2进行特征提取的作为 x i x_i xi的一个正样本,因为正样本和负样本都是相对于anchor来说的,因此其余的负样本也应该经过 T 2 T_2 T2进行特征提取,作为k在这里插入图片描述
 字典里面的K值都应该由相同或者相似的编码器得到,这里作者就提出了动量对比学习的概念。同时为了避免字典过大,作者讲数据结构中队列的思想应用进来,新的batch数据进来时,之前的数据就丢出去
作者选用个体判别的方法作为代理任务去训练整个网络,然后再将其迁移到分类任务中

待梳理

Transformer从数学中解读 https://www.bilibili.com/video/BV1ea4y197dH/?spm_id_from=333.1007.tianma.1-1-1.click&vd_source=aabedda8f33d60215e3856e026901625
零基础多图详解图神经网络 https://www.bilibili.com/video/BV1iT4y1d7zP/?spm_id_from=333.999.0.0&vd_source=aabedda8f33d60215e3856e026901625
SWIN Transformer https://www.bilibili.com/video/BV13L4y1475U/?spm_id_from=333.999.0.0&vd_source=aabedda8f33d60215e3856e026901625
迁移学习 https://www.bilibili.com/video/BV1X8411f7q1/?spm_id_from=333.999.0.0&vd_source=aabedda8f33d60215e3856e026901625
RT-Detr https://www.bilibili.com/video/BV1Nb4y1F7k9/?spm_id_from=333.1007.tianma.1-1-1.click&vd_source=aabedda8f33d60215e3856e026901625
MAP评价函数
RESnest 分散注意力网络
Mamba
大核CNN

参考资料

  • 动手深度学习 https://zh-v2.d2l.ai/chapter_attention-mechanisms/attention-cues.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/318509.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java程序设计阶段测试1

一、单选题(共15题; 共30.0分) 2.0分 1、以下哪个是Java应用程序main方法的有效定义? A.public static void main(); B.public static void main( String args ); C.public static void main( String args[] ); D.public static boolea…

2023-12-26分割回文串和子集以及子集II

131. 分割回文串 思想:回溯三步骤!① 传入参数 ② 回溯结束条件 ③ 单层搜索逻辑!抽象成回溯树,树枝上是每次从头部穷举切分出的子串,节点上是待切分的剩余字符串【从头开始每次往后加一】 class Solution:def partiti…

Python等高线图的绘制(Matplotlib篇-11)

Python等高线图的绘制(Matplotlib篇-11)         🍹博主 侯小啾 感谢您的支持与信赖。☀️ 🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ…

java实现大文件分片上传

背景: 公司后台管理系统有个需求,需要上传体积比较大的文件:500M-1024M;此时普通的文件上传显然有些吃力了,加上我司服务器配置本就不高,带宽也不大,所以必须考虑多线程异步上传来提…

载波相位测量--基本概念、基本原理、观测方程

伪距单点定位精度较低,但是我们平时导航定位时好像精度没有那么差,难道还有其它的卫星定位技术吗? 1.载波相位测量的基本概念 载波相位测量 把载波当做测距信号进行卫星定位的技术相位观测值 载波相位测量的观测值具体定义:接收…

linux 内核链表操作

操作系统内核, 如同其他程序, 常常需要维护数据结构的列表. 有时, Linux 内核已经同 时有几个列表实现. 为减少复制代码的数量, 内核开发者已经创建了一个标准环形的, 双 链表; 鼓励需要操作列表的人使用这个设施. 当使用链表接口时, 你应当一直记住列表函数不做加锁. 如果你的…

Vue 中的 ref 与 reactive:让你的应用更具响应性(中)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

B01、运行时数据区概述-03

1、什么是内存 内存是非常重要的系统资源,是硬盘和CPU的中间仓库及桥梁,承载着操作系统和应用程序的实时运行。JVM内存布局规定了Java在运行过程中内存申请、分配、管理的策略,保证了JVM的高效稳定运行。不同的JVM对于内存的划分方式和管理机制存在着部分差异。 2、线程共享和…

深入了解SoapUI - 从入门到精通的指南

SoapUI 是一个免费的开源测试工具,它能够通过 soap/http 协议来检查、调用和实现 Web Service 的功能、负载和符合性测试。 除了能够独立地使用作为一个测试软件外,SoapUI 还可以通过插件集成到 Eclipse、maven2.X、Netbeans 和 intellij 等开发环境中。…

QProgressDialog用法及结合QThread用法,四种线程使用

1 QProgressDialog概述 QProgressDialog类提供耗时操作的进度条。 进度对话框用于向用户指示操作将花费多长时间,并演示应用程序没有冻结。此外,QPorgressDialog还可以给用户一个中止操作的机会。 进度对话框的一个常见问题是很难知道何时使用它们;操作…

如何制作可预约的上门维修服务小程序?

上门维修服务已经成为人们日常生活中不可或缺的一部分。为了满足这一需求,我们学习如何无经验自己制作上门维修服务小程序。 首先,打开乔拓云-门店系统的后台,可以看到有很多各行各业的模版。这些模版涵盖了各种行业,包括家电维修…

宏晶微 MS9125 USB 投屏控制芯片 VGAHDM输出 全新原装

1.基本介绍 MS9125 是一款 USB 单芯片投屏器,内部集成了 USB2.0 控制器和数据收发模块、视频 DAC、HDMI 接口和音视频处理模块,MS9125 可以通过 USB 接口显示或者扩展 PC、智能手机、平板电脑的显示信息到更大尺寸的显示设备上,支持 VGA 和 HDMI 视频接…