关于Swin Transformer的架构记录

Swin Transformer 可以说是批着Transformer外表的卷积神经网络。

具体的架构如下图所示:

首先我们得到一张224*224*3的图片。

通过分成4*4的patch,变成了56*56*48。

线性变换后又变成了56*56*96。

然后利用了Swin Transformer中一个比较特别的结构 Patch Merging 变成28*28*192。

同理,变成14*14*384。

同理,变成7*7*768。

这是总体的过程,Swin Transformer内部是由W-MSA 和SW-MSA组成的。

另外一个比较重要的是针对移位配置的高效批量计算。

移动窗口分区的一个问题是,它将导致更多的窗口,一些窗口将小于M×M。

一个简单的解决方案是将较小的窗口填充到M×M的大小,并在计算注意力时屏蔽填充的值。这种朴素解增加的计算量是相当大的(2×2→ 3×3,是2.25倍)。

利用下图所示的方法:

在该偏移之后,分批窗口可以由在特征图中不相邻的几个子窗口组成,因此采用掩蔽机制来将自注意计算限制在每个子窗口内。

掩码如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/472736.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Day-01-01

项目准备 项目介绍 1. 业务功能 本项目包括了用户端、机构端、运营端。 2. 技术选型 各层简要说明: 环境配置 1. 版本信息 在开发过程中,个人使用gitee作为版本控制工具。 2. 虚拟机安装说明 根据所提供资料,虚拟机IP地址已设置为192.1…

人工智能学习与实训笔记(十四):Langchain Agent

0、概要 Agent是干什么的? Agent的核心思想是使用语言模型(LLM)作为推理的大脑,以制定解决问题的计划、借助工具实施动作。在agents中几个关键组件如下: Agent:制定计划和思考下一步需要采取的行动。Tools…

图表示学习 Graph Representation Learning chapter1 引言

图表示学习 Graph Representation Learning chapter1 引言 前言1.1图的定义1.1.1多关系图1.1.2特征信息 1.2机器学习在图中的应用1.2.1 节点分类1.2.2 关系预测1.2.3 聚类和组织检测1.2.4 图分类、回归、聚类 前言 虽然我并不研究图神经网络,但是我认为图高效的表示…

收藏:短时间快速健身类视频收藏1

现代人能健身时间少,在家里或者公司都可以做的健身类视频值得收藏,比如这个在家流氓步胜过户外慢跑步,大肚子没了,减的都是内脏脂肪_哔哩哔哩_bilibili 就是在家中,不断交替换脚跳,每次跳50个,分…

软件实例分享,乒乓球俱乐部会员系统管理软件教程

软件实例分享,乒乓球俱乐部会员系统管理软件教程 一、前言 以下软件程序教程以 佳易王乒乓球馆计时计费软件V17.0为例说明 软件文件下载可以点击最下方官网卡片——软件下载——试用版软件下载 多种计费方式,可以按单价,也可以按时间段 可…

http“超级应用与理解”

本篇文章来介绍一下http协议和其应用 1.http协议是在OSI模型的哪一层 HTTP(超文本传输协议)是应用层协议,它是在 OSI 模型的最高层,即第七层——应用层。HTTP 通过互联网来传输数据和信息,主要用于 Web 浏览器和 Web …

[Python http.server] 搭建http服务器用于下载/上传文件

动机:笔者需测试bs架构下的文件上传与下载性能,故想通过Python搭建http服务器并实现客户端与服务器之间的文件上传和下载需求 难点:这应该是很基础的东西,不过笔者之前未接触过http编程,谨在此记录下学习的过程&#x…

电脑选购:CPUi5/i7/i9到底该怎么选

目录 电脑选购指南 什么是i5/i7/i9介绍 数字越大CPU就越好吗 看懂了名字,还需要注意什么? (1)核心数 (2)线程数 (3)主频 (4)缓存 电脑选购指南 大家在…

亚马逊测评有风险为什么还有人做?

亚马逊老卖家都知道,测评可以快速帮助他们的产品添加评论,获得排名,打造爆款,然而现在市面情况是90%的测评机构资源是烂资源,机刷,黑卡这些层出不穷,好点的资源已经很难发现了 我这边也是了解到…

CCF编程能力等级认证GESP—C++6级—20231209

CCF编程能力等级认证GESP—C6级—20231209 单选题(每题 2 分,共 30 分)判断题(每题 2 分,共 20 分)编程题 (每题 25 分,共 50 分)闯关游戏工作沟通 答案及解析单选题判断题编程题1编程题2 单选题…

MATLAB离线文档安装

MATLAB离线文档安装 来源于最全matlab安装离线文档教程只是对内容进行了精简,同时更方便查找 一、下载离线文档 我上传的2023b离线文档 提供本体属于违规行为,本体下载链接已删除 为方便已安装好软件的朋友想安装离线帮助文档,由于官网下载…

论文阅读:MotionNet基于鸟瞰图的自动驾驶联合感知和运动预测

MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird’s Eye View Maps MotionNet:基于鸟瞰图的自动驾驶联合感知和运动预测 论文地址:MotionNet: Joint Perception and Motion Prediction for Autonomous Drivi…