swin-transformer

面向视觉任务的transfomer

Vision Transformer(ViT)在视觉任务中的局限性

  • 需求数据量巨大

    CNN中是图像整体输入,并且经过多年的演变,发展出了多个不同的优化策略。从而在学习时能够在一定先验知识的前提下拟合数据。

    而transformer是将图像切割成若干较小的patch,并拉伸成向量。从而难以获得图像关联信息,缺少大量先验知识。

    对此,需要从大量数据中学习这些先验知识。大量例子证明,在数据量足够充分的前提下,transformer能够获得比CNN更好的效果。

    但是在小规模数据中,由于无法有效学习到数据的先验知识,反而会比CNN更低。

  • 计算量大

    事实上,transformer所包含的参数通常要大于CNN。

    其主要原因在于:transformer的模型结构就导致学习数据非常的难,因此需要更多的hidden layer来学习数据的本质分布。

    为了达到这一目的,通常要累加很多层transoformer结构,因此也更加的庞大。

在视觉领域中的具体困难

1. 大尺寸图像计算量爆炸

2. 尺度固定为16*16

Swin transformer的解决之道:用CNN的精神

swin-transformer结构图

按照"长宽各减一半,channel数增加一倍"的‘规则’进行

transformer需要大量数据原因之一:因为将先验知识(序列或图片切成小patch拉成一个向量)结构被破坏,因此需要更多的数据去训练。

swin与vit不同的是:不与所有的token做相关性,而是跟它相近的(周边邻域(4个或5个))token做相关性,感受野逐渐扩大,与cnn神似;
线性变换降维:通过mlp或1*1卷积进行降维

patch partition:将图片分割成小块block(如:win size: 7*7),在通过1*1卷积将通道数3变为48

swin transformer用CNN的方式去构建网络,用卷积局部化的思想,基于self-attention的方式去搭建网络,实现图像编码

其中主要包含3个主要内容:

  1. patch partition: 类似于池化

  2. shift操作:令不同token之间有通信,减少计算量

  3. 相对位置编码:进一步加强token之间的上下文关系

patch partition

MSA和WMSA

复杂度比较

对于MSA的复杂度大约为:

对于W MSA来说

M:切割后的尺寸,如上图:M=2 ,但每个block之间没有关联起来,解决:shift

shift操作

问题:原来4个token,现在变成9个token了

解决:挪动一些token

新问题:特征乱窜

解决: 加mask

位置偏置

位置偏置就是将位置信息作为偏置,加入向量。

imagenet上加入位置偏置可以有3%的提升。

具体步骤为:

  • 计算每个token的相对位置坐标

  • 拉伸后合并成一个矩阵

  • 合并成一维位置向量(全部加上M-1,行再乘以2M-1,行列相加)

  • 可训练参数B作为偏置value的索引,查表将偏置作为归一化后的偏置信息

B:位置编码(增加每个token的位置信息)

总体架构

Token

在计算机视觉中,Token通常指的是一种用于表示图像或文本中的最小单位的符号或标记。这些符号或标记可以是像素、单词、字符或其他更高级的语义单位。

在图像处理中,Token可以是图像的像素、图像块、特征点或其他表示图像信息的单位。例如,在图像分类或目标检测任务中,可以将图像划分为不同的图像块,并将每个图像块视为一个Token来进行处理。

在自然语言处理中,Token通常指的是将文本分割成单词、字符或其他语义单位的过程。这些Token可以用于文本的分析、语义理解、机器翻译等任务。例如,在文本分类任务中,可以将文本分割成单词并将每个单词视为一个Token来进行处理。

Token在计算机视觉中的应用非常广泛,可以用于图像处理、目标识别、图像分割、文本处理等各种任务中。通过将图像或文本分割成Token,可以更好地理解和处理图像或文本数据,从而提高计算机视觉任务的性能和效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/21470.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Golang gui walk入门教程(一)安装walk环境

一、golang环境 Go 1.11.x or later 二、安装walk go get github.com/lxn/walk 三、安装rsrc 运行walk程序需要manifest,rsrc提供了这个功能 go install github.com/akavel/rsrc 安装完成后在GOPATH的bin下面会有一个rsrc.exe的可执行文件 在idea的termial输入r…

二维码生成器简单使用

生成器工具类 以下是一个简单的 QRCodeUtil 示例,这个工具类使用了 zxing 库来生成二维码图片: import com.google.zxing.BarcodeFormat; import com.google.zxing.common.BitMatrix; import com.google.zxing.qrcode.QRCodeWriter;import javax.image…

C语言、C++和C#:区别与特点的比较

C语言、C和C#是三种不同的编程语言,它们在以下几个方面存在区别: 设计宗旨:C语言是一种过程式编程语言,旨在提供高效的系统级编程。C是在C语言基础上发展而来的,既支持过程式编程,也支持面向对象编程。C#是…

出海企业系列风险分析--网站需要验证码吗?

最近接待了几位从discuz来的用户,说是想要给自己海外的网站安装验证码,但是discuz境外服务器还要解析安装中心的DNS到境外服务器上,所以基于discuz建站的不好之处就在这里。 而且我们还讨论到一个问题,海外的网站,需要…

C#制作打包安装程序,安装程序类使用

这里写目录标题 安装Microsoft Visual Studio Installer Projects创建安装项目设置安装程序文件设置程序桌面图标给程序设置安装程序名称安装程序类怎么使用Installer1.cs自定义安装步骤自定义设置安装程序路径,让用户安装时不能选择安装路径生成安装包 安装Microso…

数据结构(王道)——顺序表的基本操作(查找)

顺序表基本操作之按位查找: 顺序表基本操作之按值查找: 关于结构体类型是否相等的比较方法 顺序表查找总结:

Mysql select查询练习

1、查询出部门编号为30的所有员工: select * from emp where deptno30; 2、所有销售员的姓名、编号和部门编号: select ename,empno,deptno from emp where job销售员; 3、找出奖金高于工资的员工: select * from emp where comm > sai…

2023-7-12-第十七式状态模式

🍿*★,*:.☆( ̄▽ ̄)/$:*.★* 🍿 💥💥💥欢迎来到🤞汤姆🤞的csdn博文💥💥💥 💟💟喜欢的朋友可以关注一下&#xf…

获取全国各地行政区的genjson数据以及使用leaflet加载行政区数据

前言 在写代码之前,我们需要做一些准备工作,需要有一份某个行政区的geojson数据,如果你没有也没关系,我们可以去下载,地址:geojson数据下载网站 打开网站,选择自己想要获取的行政区&#xff0…

【FAQ】API6低代码开发问题汇总

参考文档: 低代码开发参考文档: 文档中心:使用低代码进行开发 基于景区模板开发元服务: 文档中心:模板简介 使用API6低代码开发遇到的问题汇总情况如下: 1、低代码环境下,如何实现box-shadow阴影效果的配置&#…

瑞萨RFP工具使用问题总结

最近在用瑞萨的RH850,需要用到瑞萨提供的刷新工具RFP(Renesas Flash Programmer),但是总是遇到一些问题,除了一些能够在官网上找到答案的问题,还遇到了其他各种各样的问题,这里记录一下问题和对…

(五)Flask之深入剖析路由源码

路由(Route)这个概念在所有web框架中都非常重要,它是用于定义URL和对应的处理函数(视图)之间的映射关系。通过定义路由,可以使web框架应用程序能够响应不同的URL请求,并执行相应的逻辑。 源码剖…