视觉Transformer和Swin Transformer

视觉Transformer概述

ViT的基本结构:

①输入图片首先被切分为固定尺寸的切片;

②对展平的切片进行线性映射(通过矩阵乘法对维度进行变换);

③为了保留切片的位置信息,在切片送入Transformer编码器之前,对每个切片加入位置编码信息;

④Transformer编码器由L个Transformer模块组成,每个模块由层归一化(LN)、多头自注意力模块(MHSA)、多层感知机(MLP)及残差连接等构成;

多层感知机(MLP)icon-default.png?t=N7T8https://blog.csdn.net/JasonH2021/article/details/131021534

其中,z_{l}^{'} 和z_{l} 分别表示第 l 个模块中MHSA和MLP的输出特征

z_{l}^{'}=MSA(LN(z_{l-1}))+z_{l-1}

z_{l}=MLP(LN(z_{l}^{'}))+z_{l}^{'}

由于ViT关注分类问题,编码器的输出只关注最后一个Transformer模块的MLP头部信息,y=LN(z_{L}^{0})。只有在大规模数据集上进行预训练再迁移到中小规模数据集的条件下,ViT才能取得与当时最新卷积结构媲美的性能。

Swin Transformer

最大的贡献在于降低了self-attention的计算复杂度。

Swin Transformer在视觉Transformer的基础上引入了移动窗口(shifted windows)机制,采用“分而治之”的思想,将自注意力的计算限制在各个窗口内从而使得模型只有和输入图片尺寸相关的线性复杂度。

连续Swin Transformer块

其在Transformer编码器基础上,将对头自注意力模块(MHSA)替换为常规窗口多头自注意力(W-MHSA)和移动窗口多头自注意力(SW-MHSA)模块。

\hat{z}^{l}=W-MHSA(LN(z^{l-1}))+z^{l-1}

z^{l}=MLP(LN(\hat{z}^{l}))+\hat{z}^{l}

\hat{z}^{l+1}=SW-MHSA(LN(z^{l}))+z^{l}

z^{l+1}=MLP(LN(\hat{z}^{l+1}))+\hat{z}^{l+1}

其中,\hat{z}^{l}z^{l}分别表示第l个模块中(S)W-MSA和MLP的输出特征

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/587058.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法学习——LeetCode力扣图论篇1(797. 所有可能的路径、200. 岛屿数量、695. 岛屿的最大面积)

算法学习——LeetCode力扣图论篇1 797. 所有可能的路径 797. 所有可能的路径 - 力扣(LeetCode) 描述 给你一个有 n 个节点的 有向无环图(DAG),请你找出所有从节点 0 到节点 n-1 的路径并输出(不要求按特…

java中的string和stringbuff和stringBuilter

String类 String类是引用类型,而不是基础数据类型。 所有双引号括住的都是String类。 所有String类都是在方法区的字符常量池中存储数据,通过new String(“example”);创建的字符串在堆中有一个对象,其内容是一个指向字符常量池中一个指针。…

[羊城杯 2020]EasySer

[羊城杯 2020]EasySer 进入页面,发现是ubuntuapache2,但是好像没啥用 尝试访问/robots.txt,得到 访问/star1.php/,查看源码,得到提示 一看就知道是ssrf,使用http://127.0.0.1/ser.php,得到…

【攻防世界】warmup (代码审计)

进入题目环境,只有一个表情: ctrl u 查看源代码: 源代码提示我们访问 /source.php。访问结果如下: 我们进行代码审计,发现解题的关键点 include &_REQUEST[file]。但是题目使用了白名单进行了过滤。我们发现白名单…

dcoker 下redis设置密码

修改Docker里面Redis密码 Redis是一个开源的内存数据结构存储系统,常用于缓存、消息队列和数据持久化等场景。在使用Docker部署Redis时,默认情况下是没有设置密码的,这可能会导致安全隐患。因此,为了保证数据的安全性&…

网络攻防中的信息收集

目录 1.确定目标 2.目标阔线收集 2.1.子域名爆破 2.2.空间资产测绘 2.3.相关工具协助 3.指纹识别 4.相关地址 4.1.网站备案 4.2.资产测绘平台 4.3.工具 在渗透测试过程中,前期的一个信息打点过程可谓是尤为重要,但是如何做好前期的信息收集方式…

如何迁移WordPress站点

本周有一个Hostease客户,新购买linux虚拟主机,把WordPress站点,从旧主机迁移hostease新购买的Linux虚拟主机上,问题该如何操作,保证站点数据不丢失。通过我们提供教程,用户操作非常简单,并很快完…

2024052期传足14场胜负前瞻

2024052期售止时间为4月3日(周三)22点00分,敬请留意: 本期深盘多,1.5以下赔率7场,1.5-2.0赔率1场,其他场次是平半盘、平盘。本期14场难度中等偏下。以下为基础盘前瞻,大家可根据自身…

HBase详解(1)

HBase 简介 概述 HBase是Yahoo!公司开发的后来贡献给了Apache的一套开源的、分布式的、可扩展的、基于Hadoop的非关系型数据库(Non-Relational Database),因此HBase并不支持SQL(几乎所有的非关系型数据库都不支持SQL),而是提供了一套单独的命令和API操…

【蓝桥杯第十四届省赛B】(部分详解)

【01串的熵】 https://www.lanqiao.cn/problems/3498/learning/?subject_code1&group_code4&match_num14&match_flow1&origincup #include <iostream> #include<cmath> using namespace std; int main() {double n23333333;double sum0;for(int…

C语言之通讯录

c语言中的小小白-CSDN博客c语言中的小小白关注算法,c,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm1001.2014.3001.5343 给大家分享一句我很喜欢我话&#xff1a; 知不足而奋进&#xff0c;望远山而前行&am…

群晖NAS使用Docker部署大语言模型Llama 2结合内网穿透实现公网访问本地GPT聊天服务

文章目录 1. 拉取相关的Docker镜像2. 运行Ollama 镜像3. 运行Chatbot Ollama镜像4. 本地访问5. 群晖安装Cpolar6. 配置公网地址7. 公网访问8. 固定公网地址 随着ChatGPT 和open Sora 的热度剧增,大语言模型时代,开启了AI新篇章,大语言模型的应用非常广泛&#xff0c;包括聊天机…