论文阅读——ViTAE

ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

ViTAE旨在将细胞神经网络中固有的IB引入视觉转换器。如图2所示,ViTAE由两种类型的细胞组成,即RC和NC。RC负责将多尺度上下文和局部信息嵌入到令牌中,NC用于进一步对令牌中的局部性和长程依赖性进行建模。以图像x∈RH×W×C为输入,使用三个RC分别将x逐步下采样4×、2×和2×。因此,RC的输出令牌的大小为[H/16,W/16,D],其中D是令牌维度(在我们的实验中为64)。然后,RC的输出标记被平坦化为RHW/256×D,与类标记连接,并通过正弦位置编码相加。接下来,令牌被馈送到以下NC中,这些NC保持令牌的长度。最后,使用来自最后一个NC的类标记上的线性分类层来获得预测概率。

ViTAE(Vision Transformers Advanced by Exploring Intrinsic Inductive Bias),通过从卷积中探索内在IB而得到改进。从技术上讲,ViTAE有几个空间金字塔缩减模块,通过使用不同膨胀率的多个卷积,对输入图像进行下采样,并将其嵌入到具有丰富多尺度上下文的令牌中。通过这种方式,它获得了固有的尺度不变性IB,并且能够学习各种尺度下对象的鲁棒特征表示。此外,在每个转换器层中,ViTAE都有一个与多头自注意模块并行的卷积块,其特征被融合并馈送到前馈网络中。因此,它具有固有的局部性IB,能够协同学习局部特征和全局依赖性

ViT在建模局部视觉结构(例如边和角)和处理卷积等各种尺度的对象时缺乏固有的归纳偏差(IB)。或者,ViT必须从大规模数据中隐含地学习这种IB。

与视觉转换器不同,卷积神经网络(CNNs)自然具有尺度不变性和局部性的内在IB,并且仍然是视觉任务中的主要骨干[26,70,62,8,96]。细胞神经网络的成功激励我们在视觉转换器中探索内在的IB。我们首先分析了细胞神经网络的上述两个IB,即局部不变性和尺度不变性。卷积计算相邻像素之间的局部相关性,擅长提取边缘和角点等局部特征。因此,细胞神经网络可以在浅层提供丰富的低级别特征[94],然后通过大量的顺序卷积将其逐渐聚合为高级别特征[32,68,71]。此外,细胞神经网络具有层次结构,可以提取不同层的多尺度特征[68,38,26]。此外,层内卷积还可以通过改变其内核大小和膨胀率来学习不同尺度的特征[25,70,8,45,96]。因此,可以通过层内或层间特征融合来获得尺度不变的特征表示。然而,细胞神经网络不太适合对长期依赖性进行建模2,这是变压器的关键优势。一个有趣的问题出现了:我们能利用细胞神经网络的良好特性来改进视觉转换器吗?最近,DeiT[76]探索了从细胞神经网络到变压器提取知识的想法,以促进培训并提高性能。然而,它需要现成的CNN模型作为教师,并消耗额外的培训成本。

与DeiT不同的是,本文通过重新设计网络结构,将固有IB明确引入到视觉变换器中。当前的视觉转换器总是获得具有单尺度上下文的标记[19,93,80,86,47,69,77],并从数据中学习适应不同尺度的对象。例如,T2T-ViT[93]通过以软分割方式精细地生成令牌来改进ViT。具体而言,它使用一系列令牌到令牌转换层来聚合单尺度的相邻上下文信息,并将图像逐步结构化为令牌。受细胞神经网络在处理尺度方差方面的成功启发,我们在转换器中探索了一种类似的设计,即具有不同感受野的层内卷积[70,91],以将多尺度上下文嵌入到令牌中。这样的设计允许标记在各种尺度上携带对象的有用特征,从而自然地具有固有的尺度不变性IB,并明确地促进变换器从数据中更有效地学习尺度不变特征。另一方面,低级局部特征是生成高级判别特征的基本要素。尽管变换器也可以从数据中学习浅层的这些特征,但它们在设计上并不擅长卷积。最近,[89,43,21]依次堆叠卷积和注意力层,并证明局部性是全局依赖性的合理补偿。然而,这种串行结构在局部建模过程中忽略了全局上下文(反之亦然)。为了避免这种困境,我们遵循“分而治之”的思想,提出并行地对局部依赖和长程依赖进行建模,然后融合特征来兼顾两者。通过这种方式,我们使转换器能够更有效地学习每个块中的局部和远程特征。从技术上讲,我们提出了一种通过探索固有电感偏置(ViTAE)先进的新型视觉转换器,它是两种基本单元的组合,即还原单元(RC)和正常单元(NC)。RC用于对输入图像进行下采样并将其嵌入到具有丰富多尺度上下文的令牌中,而NC旨在对令牌序列中的局部和全局依赖性进行联合建模。此外,这两种类型的细胞共享一个简单的基本结构,即并行注意力模块和卷积层,然后是前馈网络(FFN)。值得注意的是,RC有一个额外的金字塔缩减模块,该模块具有不同膨胀率的atrous卷积,以将多尺度上下文嵌入到令牌中。根据[93]中的设置,我们堆叠三个归约单元以将空间分辨率降低1/16,并堆叠一系列NC以从数据中学习判别特征。ViTAE在数据效率和训练效率(见图1)以及下游任务的分类精度和泛化能力方面优于具有代表性的视觉转换器。

我们的贡献有三方面。首先,我们探索了变换器中的两种固有IB,即尺度不变性和局部性,并证明了这种思想在提高变换器的特征学习能力方面的有效性。其次,我们基于两个新的归约和正常单元设计了一个新的变压器架构,命名为ViTAE,以本质上结合上述两个IB。所提出的ViTAE将多尺度上下文嵌入到令牌中,并有效地学习局部和远程特征。第三,ViTAE在分类精度、数据效率、训练效率和下游任务的泛化方面优于具有代表性的视觉转换器。ViTAE在ImageNet上分别以4.8M和23.6M的参数实现了75.3%和82.0%的第一精度。

ViTAEv2

ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond

除了分类之外,其他下游任务,包括对象检测、语义分割和姿态估计,也是通用主干网应该适应的非常重要的任务。这些下游任务通常需要从主干网中提取多层次特征,以处理不同尺度的对象。为此,我们将普通的ViTAE模型扩展到多阶段设计,即ViTAE-v2。ViTAE-v2设计的一个自然选择是通过重新组织RC和NC来重新构建模型。如图3所示,ViTAE-v2有四个阶段,其中使用四个相应的RC分别对特征进行4×、2×、2倍和2×的逐步下采样。在每个阶段,多个Ni正常电池在第i个RC之后顺序堆叠。请注意,一系列NC仅在各向同性设计的最粗略阶段使用。正常细胞(即Ni)的数量控制着模型的深度和大小。通过这样做,ViTAE-v2可以从不同阶段提取特征金字塔,其可以由专门为各种下游任务设计的解码器使用。

剩下的一个问题是,transformer中的普通注意力操作具有二次计算复杂性,因此需要大的内存占用和计算成本,尤其是对于具有大分辨率的特征图。与普通ViTAE设计中的快速分辨率降低相比,我们在多阶段设计中采用了慢速分辨率降低策略,例如,第一阶段的特征图的分辨率仅为原始图像大小的1/4,从而导致更多的计算成本,尤其是当下游任务中的图像具有高分辨率时。为了缓解这一问题,我们进一步探讨了RC和NC模块中的另一种归纳偏差,即(Liu et al,2021)中引入的局部窗口注意力。具体来说,窗口注意力将整个特征图拆分为几个不重叠的局部窗口,并在每个窗口内进行多头自注意力,即同一窗口内的每个查询令牌共享相同的键值集。由于所提出的两个单元中的并行卷积分支可以对位置信息进行编码并实现窗口间信息交换,因此可以省略(Liu et al,2021)中的相对位置编码和窗口移位机制等特殊设计。我们实证发现,在早期阶段用局部窗口注意力取代完全注意力可以在计算成本和性能之间实现良好的权衡。因此,在前两个阶段,我们只在RC和NC模块中使用局部窗口注意力。因此,我们的ViTAEv2模型可以为各种视觉任务提供卓越的性能,包括图像分类、对象检测、语义分割和姿态估计,同时保持快速的推理速度和合理的内存占用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/534848.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5.x 版本 CallKit SDK 无法弹起通话界面

5.x 版本 CallKit SDK 作为接听方在前台的情况下无法弹起通话界面,作为拨打方能正常弹起通话界面 分析(根因分析、需求分析) CallKit SDK 初始化依赖于 IMKit SDK 初始化,如果您使用 IMLib SDK 的方法初始化的话,会导…

邮件推送服务的要素?邮件推送服务的优势?

邮件推送服务怎么配置?如何使用邮件推送服务发信? 通过精心策划和实施的邮件推送服务,企业不仅能够及时传递信息,还能有效增强客户黏性,促进业务增长。那么,邮件推送服务的要素究竟有哪些呢?接…

通过一篇文章让你了解什么是函数栈帧

函数栈帧的创建和销毁 前言一、什么是函数栈帧二、 理解函数栈帧能解决什么问题三、 函数栈帧的创建和销毁解析3.1 什么是栈3.2 认识相关寄存器和汇编指令相关寄存器eaxebxebpespeip 相关汇编命令 3.3 解析函数栈帧的创建和销毁3.3.1 预备知识3.3.2 函数的调用堆栈3.3.4 准备环…

爆款游戏如何借助 RocketMQ Serverless,打造流畅体验并节省 98% 成本?

作者:鼎岳、稚柳、勇猛、家泽 一款游戏作品之所以能在市场上引爆热潮,铸就爆款传奇,除了独树一帜的创新设计理念、引人入胜的故事情节和丰富多样的玩法机制之外,最核心的要素就是为玩家提供极致流畅且无与伦比的游戏体验。这种体…

揭秘FastStone Capture:一款强大且高效的截图工具

目录 【引子】【FastStone Capture概述】【安装步骤】【使用攻略】【核心功能解析】【总结】 【引子】 在数字化信息时代,无论是工作汇报、在线教学,还是日常交流中,屏幕截图已经成为我们必不可少的辅助工具。今天,我要为大家详细…

面试官:如何判断一个元素是否在可视区域中?

一、用途 可视区域即我们浏览网页的设备肉眼可见的区域,如下图 在日常开发中,我们经常需要判断目标元素是否在视窗之内或者和视窗的距离小于一个值(例如 100 px),从而实现一些常用的功能,例如:…

【Linux】Centos7上安装MySQL5.7

目录 1.下载安装包2. 上传安装包3.将 mysql 解压到/usr/local/4.重命名5.创建mysql用户及用户组6. 进入 mysql 目录修改权限7. 安装依赖库8. 执行安装脚本9. 复制启动脚本到资源目录10. 拷贝 my.cnf,并赋予权限11. 配置环境变量12. 启动 mysqld13. 登录 MySQL&#…

Extropic.AI:终结GPU/TPU的热力学未来Chip?

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

27-Java MVC 模式

Java空对象模式 实现范例 MVC模式代表 Model-View-Controller(模型-视图-控制器) 模式MVC模式用于应用程序的分层开发 Model(模型) - 模型代表一个存取数据的对象或 JAVA POJO 它也可以带有逻辑,在数据变化时更新控制…

web端屏幕截屏,生成自定义海报!

在一些社群网站,经常会碰到问题、活动、商品的信息分享,这种分享通常是以海报的形式发送给好友或保存到本地。在这种场景下,海报肯定是动态变化的,所以我们要动态的渲染内容并生成图片,海报其实就是图片。 官网&#x…

分析基于解析物理模型的E模式p沟道GaN高电子迁移率晶体管(H-FETs)

来源:Analyzing E-Mode p-Channel GaN H-FETs Using an Analytic Physics-Based Compact Mode(TED 24年) 摘要 随着近期对用于GaN互补技术集成电路(ICs)开发的p沟道GaN器件研究兴趣的激增,一套全面的模型…

JSONObject在Android Main方法中无法实例化问题

目录 前言一、Main(非安卓环境)方法下运行二、安卓坏境下运行三、why? 前言 原生的json,即org.json.JSONObject; 在Android Studio中的Main方法里运行报错,但在安卓程序运行过程正常 一、Main(非安卓环境)方法下运行 static void test() {try {// 创建一个 JSON …