Attention机制学习-编程知识

Attention机制学习

news/2025/1/16 3:52:00/文章来源:https://blog.csdn.net/messyking/article/details/135013092

写在前面
注意力机制是一个很不错的科研创新点方向，但是没有系统记录过学习过程，这里记录科研中遇到的各种注意力机制。

1. Attention机制解释

本质上来说用到attention的任务都有Query，Key，Value三个关键components，目标则是输入query，然后根据query和key的关系以及key和value的关系求出最终的value。总结来说注意力机制可以分为三步：
1.输入Query；
2.计算Query和Key的注意力权重 $\alpha$ ；
3.根据 $\alpha$ 来计算输入信息对Value的加权平均。
在这里插入图片描述

Attention机制流程（参考）

1.1 Example - 根据腰围估计体重

参考视频，这个大佬up讲的非常好，值得大家去一键三连！

图1.1.1

如图1.1.1所示，这个例子是想通过输入一个腰围（ $q$ ），得到最后的体重预测值（ $k$ ）。每一个 $k$ 对应一个 $v$ ，但是 $q$ 要跟三个 $k$ 都有一个加权，如图1.1.2所示。
在这里插入图片描述

图1.1.2

其中， $\alpha(q, k_1)$ 这个就是注意力权重，代表着 $q$ 和 $k_1$ 的相关性，也就是 $q$ 要在多大程度上参考 $k_1$ 对应的 $v_1$ 。 $\alpha(q, k_1)$ 的计算方式有很多，比如采用余弦距离、欧式距离、皮尔森等距离度量函数。但是需要注意的就是每一个注意力权重都是在经过距离函数计算之后，都要进行归一化处理。归一化处理的方式也很多，比如softmax处理。图三就是采用了欧式距离度量函数，并且采用softmax归一化处理，从而得到最终的注意力权重。
在这里插入图片描述

图1.1.3

现实中，我们的 $q$ 肯定大多是多维数据，但是计算的过程是一样的。比如说我们的 $q$ 不再仅包含一个腰围数据，我们还包括了胸围数据，那么这个注意力机制的计算过程就会变成如图1.1.4所示的形式。
在这里插入图片描述

图1.1.4
需要注意的是，

k

和

v

不一定也要是二维的，这里up只是为了给后面的self-attention做铺垫，保持

q, k, v

维度一致性才采用2维。图4也给出了3种计算多维数据的权重分数的计算方式。其中的点积模型和缩放点积模型计算方法需要保证

q

和

k

的维度是一致的，也就是self-attention中的注意力权重的计算方法。图1.1.5则给出了一个将

q, k, v

矩阵化后采用缩放点积权重计算过程。
在这里插入图片描述

在这里插入图片描述

图1.1.5

2. 各种Attention机制

2.1 Self-Attention

自注意力机制是注意力机制的变体，他能够基于输入的数据来进行注意力机制的学习，减少了对外部的依赖，让模型更多地关注数据本身或特征的内部相关性。例如，在1.1的那个例子里头，把 $Q, K, V$ 都改成输入的 $X$ 。
在这里插入图片描述

图 2.1.1
然后采用缩放点积方式的计算则如下所示。
在这里插入图片描述

在这里插入图片描述

图 2.1.2

但是在实际应用中，我们往往会对 $X$ 映射到 $Q, K, V$ 的过程中做一个线性变换，比如大名鼎鼎的Transformer模型。
在这里插入图片描述

图 2.1.3 如图2.1.3所示，Transfomer通过引入三个可训练矩阵, 然后图2.1.2的公式就可以变成下式。

$softmax(XW_Q(XW_K/\sqrt{d})^T)XW_V$

To be continued…

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/277218.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Tekton 基于 gitlab 触发流水线

Tekton 基于 gitlab 触发流水线

Tekton 基于 gitlab 触发流水线 Tekton EventListener 在8080端口监听事件，Gitlab 提交代码产生push 事件，gitlab webhook触发tekton流水线执行。前置要求： kubernetes集群中已部署 tekton pipeline、tekton triggers以及tekton dashboa…

阅读更多...

c YUV 转 JPEG（准备霍夫曼编码）

c YUV 转 JPEG（准备霍夫曼编码）

先取yuv 文件中一个168的块，跑通全流程理解与思路： 1.块分割 YUV 文件分为：YUV444 YUV 422 YUV420。444:就是：12个char 有4个Y，4个U，4个 U，422：8个char 中有4个Y &#x…

阅读更多...

Python （九）requests

Python （九）requests

程序员的公众号：源1024，获取更多资料，无加密无套路！ 最近整理了一波电子书籍资料，包含《Effective Java中文版第2版》《深入JAVA虚拟机》，《重构改善既有代码设计》，《MySQL高性能-第3版》&…

阅读更多...

C++之模板

C++之模板

目录泛型编程模板函数模板函数模板的实例化隐式实例化显示实例化类模板我们知道STL（标准模板库）是C学习的精华所在，在学习STL之前我们得先学习一个新的知识点-------模板。那么模板究竟是什么呢？围绕着这个问题&a…

阅读更多...

算法训练营Day14

算法训练营Day14

#Java #二叉树层次遍历 #反转二叉树开源学习资料二叉树的层次遍历：力扣题目链接二叉树的层次遍历很好理解： 就是从根结点一层一层地往下遍历（同一层，从左到右）： 迭代的方式很好理解：就是…

阅读更多...

【Axure RP9】动态面板使用------案例：包括轮播图和多方式登入及左侧菜单栏案例

【Axure RP9】动态面板使用------案例：包括轮播图和多方式登入及左侧菜单栏案例

目录一动态面板简介 1.1 动态面板是什么二轮播图 2.1 轮播图是什么 2.2 轮播图应用场景 2.3 制作实播图三多方式登入 3.1多方式登入是什么 3.3 多方式登入实现四左侧菜单栏 4.1左侧菜单栏是什么 4.2 左侧菜单栏实现一动态面板简介 1.1 动态面板是什么…

阅读更多...

嵌入式系统挑战赛题目----简单栈数据结构

嵌入式系统挑战赛题目----简单栈数据结构

一、题目要求实现一个简单的栈数据结构。栈是一种后进先出线性数据结构，只能在一端进行插入和删除操作。请编写一个C语言程序，实现包括栈的初始化、入栈、出栈以及判断栈是否为空等基本操作。请根据要求在begin、end间完成代码，不要改变代…

阅读更多...

高速无刷直流电机霍尔板在高速无刷直流三相电机上是一个什么样的角色

高速无刷直流电机霍尔板在高速无刷直流三相电机上是一个什么样的角色

目录一、0-30阶段二、30-60阶段三、60-90阶段三相电机在各领域应用广泛，是现代工业和生活的重要设备。三相全波无刷电机的旋转原理可以分为0-90旋转的详细说明如下： 首先，我们以一个三相60相带的无刷直流电机为例，来说明其…

阅读更多...

【Linux】进程周边004之进程的调度与切换（领略Linux系统进程调度算法的神奇）

【Linux】进程周边004之进程的调度与切换（领略Linux系统进程调度算法的神奇）

👀樊梓慕：个人主页 🎥个人专栏：《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》 🌝每一个不曾起舞的日子，都是对生命的辜负目录前言 1.进程切换 2.进程调度 2.…

阅读更多...

VBA_MF系列技术资料1-242

VBA_MF系列技术资料1-242

MF系列VBA技术资料为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧，我参考大量的资料，并结合自己的经验总结了这份MF系列VBA技术综合资料，而且开放源码（MF04除外），其中MF01-04属于定…

阅读更多...

【多线程】Java中多线程的几种实现方式

【多线程】Java中多线程的几种实现方式

多线程（multithreading）是指在一个程序中同时执行多个不同的线程（thread），每个线程都是程序的一部分，是独立的执行路径。相比于单线程程序，多线程程序可以更充分地利用计算机的多核心或多处理器…

阅读更多...

PyTorch: 基于【VGG16】处理MNIST数据集的图像分类任务【准确率98.9%+】

PyTorch: 基于【VGG16】处理MNIST数据集的图像分类任务【准确率98.9%+】

目录引言在Conda虚拟环境下安装pytorch步骤一：利用代码自动下载mnist数据集步骤二：搭建基于VGG16的图像分类模型步骤三：训练模型步骤四：测试模型运行结果后续模型的优化和改进建议完整代码结束语引言在本博客中，小…

阅读更多...

推荐文章

最新文章