17.基干模型Swin-Transformer解读

文章目录

  • SWin-Transformer解读
    • 1.基础介绍
    • 关于Shifted Window based Self-Attention
      • 相对位置偏置
    • 网络整体结构和层级特征


欢迎访问个人网络日志🌹🌹知行空间🌹🌹


SWin-Transformer解读

1.基础介绍

Swin-Transformer是202103月微软亚洲研究院提交的论文中提出的,比ViT晚了半年左右,相对于ViT而言,Swin-Transformer的改进,使transformer能作为新的视觉任务backbone,用于分类分割和检测,姿态估计等任务。

论文:https://arxiv.org/abs/2103.14030
代码:https://github.com/microsoft/Swin-Transformer

Swin-TransformerShifted Window Transformer,作者指出了将transformer应用到视觉任务中需要解决的两个问题,

一个是在ViT中就已经提到的计算self attension Q K T d k V \frac{QK^T}{\sqrt{d_k}}V dk QKTV复杂度是序列长度L(在视觉任务中是image size)的平方,着限制了transformer处理大分辨率图像的能力。

另一个,对于像语义分割/目标检测这些任务,最好能输出层级的金字塔型的特征,以增加模型处理不同scale对象的能力,同时也更利于使用过去研究中已验证有效果的trick

Swin-Transformer中作者针对上述两个问题提出的方法分别是Shifted Window based Self-Attention和随着网络的深度合并图像patch来生成层级特征图。

关于Shifted Window based Self-Attention

先来看transformer中的常规全局Multi-Head Self Attention(MSA)的计算复杂度,
Q=K=V,shape(L, C) L对应的是序列的长度对于 h × w h\times w h×w的图像等同于 L = h × w L=h\times w L=h×w,C是模型的通道数等同于hidden_dims, W i Q , W i K , W i V W_i^Q,W_i^K,W_i^V WiQ,WiK,WiV对应的shape都为(C,C),MSA输出的通道数也是C,则 W O W^O WOshape(C,C)。那么,对于全局注意力机制的计算包括 Q W i Q QW_i^Q QWiQ, K W i K KW_i^K KWiK, V W i V VW_i^V VWiV, Q K T QK^T QKT, S V SV SV, A W O AW^O AWO这几部分,其中 S = s o f t m a x ( Q K T C ) S=softmax(\frac{QK^T}{\sqrt{C}}) S=softmax(C

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/156126.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

八段流水线运行示意图

流水线如下图所示: 存储周期存取时间恢复时间, 即存取完数据后需要一定量的时间来恢复, 而低位交叉编址的流水线所利用的正是恢复时间 流水线与非流水线对比如下: 经典例题: 2013年408真题

全网最全的RDMA拥塞控制入门基础教程

RDMA-CC(全网最全的RDMA拥塞控制入门基础教程) 文章目录 RDMA-CC(全网最全的RDMA拥塞控制入门基础教程)DMARDMARDMA举例RDMA优势RDMA的硬件实现方法RDMA基本术语FabricCA(Channel Adapter)Verbs 核心概念Me…

UE5 Android下载zip文件并解压缩到指定位置

一、下载是使用市场的免费插件 二、解压缩是使用市场的免费插件 三、Android路径问题 windows平台下使用该插件没有问题,只是在Android平台下,只有使用绝对路径才能进行解压缩,所以如何获得Android下的绝对路径?增加C文件获得And…

众和策略:微软大动作

当地时间周二,美股首要指数全线收涨。但从月度数据来看,美股首要指数录得“三连跌”,10月份,道指跌1.36%,标普500指数跌2.2%,纳指跌2.78%。其间,标普和道指均为2020年3月以来初次呈现三个月连跌…

实时检测并识别视频中的汽车车牌

对于基于摄像头监控的安全系统来说,识别汽车牌照是一项非常重要的任务。我们可以使用一些计算机视觉技术从图像中提取车牌,然后我们可以使用光学字符识别来识别车牌号码。在这里,我将引导您完成此任务的整个过程。 要求: import cv2import numpy as npfrom skimage impor…

Webpack构建慢如蜗牛?提升开发效率的速度优化秘籍!

🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! 目录 ⭐ 专栏简介 📘 文章引言 一、背…

html获取网络数据,列表展示 一

html获取网络数据&#xff0c;列表展示 js遍历json数组中的json对象 image.png || - 判断数据是否为空&#xff0c;为空就显示 - <!DOCTYPE html> <html><head><meta charset"utf-8"><title>网页列表</title></head><b…

这里有免费搭建高效帮助中心的方法!

在现代的商业环境中&#xff0c;为客户提供高效的帮助中心是至关重要的。HelpLook是一个好用的知识库工具&#xff0c;可以帮助企业免费搭建高效的帮助中心。通过HelpLook&#xff0c;企业可以轻松创建和管理自己的知识库&#xff0c;提供详细的产品使用指南、常见问题解答等内…

nginx 转发数据流文件

1.问题描述 后端服务&#xff0c;从数据库中查询日志&#xff0c;并生成表格文件返回静态文件。当数据量几兆时&#xff0c;返回正常&#xff0c;但是超过几十兆&#xff0c;几百兆&#xff0c;就会超过网关的连接超时时间30秒。 时序图 这里面主要花费时间的地方在&#xff…

【JavaEE初阶】 文件内容的读写 —— 数据流

文章目录 &#x1f334;数据流的概念&#x1f6a9;数据流分类 &#x1f333;字节流的读写&#x1f6eb;InputStream&#xff08;从文件中读取字节内容)&#x1f6a9;实例一&#x1f6a9;实例二&#x1f6a9;利用 Scanner 进行字符读取 &#x1f6ec;OutputStream(向文件中写内容…

软件开发项目文档系列之八数据库设计说明书

数据库设计说明书是一个关键文档&#xff0c;它提供了有关数据库的详细信息&#xff0c;包括设计、结构、运行环境、数据安全、管理和维护等方面的内容。 1 引言 引言部分&#xff0c;简要介绍数据库设计说明书的目的和内容。这部分通常包括以下内容&#xff1a; 引言的目的…

对PySide6 say Hello(包含环境配置) ——PyQt

前言 一直想学一下python&#xff0c;特别是十一前抢票时达到顶峰。我正好是Qter&#xff0c;所以在网上找了一个教程直接学PyQt。 配置PyQt环境 当前环境 Win10Qt5.15.2 python3.11 之前安装python时好像自动安装了python的包管理工具pip&#xff0c;配置pyqt环境所需要安装…