51-17 视频理解串讲— MViT 论文精读

继TimeSformer模型之后,咱们再介绍两篇来自Facebook AI的论文,即Multiscale Vision Transformers以及改进版MViTv2: Improved Multiscale Vision Transformers for Classification and Detection。

由于本司大模型组最近组织阅读的论文较多,为理清相互之间的脉络,画草图如下 <->

MViT,Multiscale Vision Transformers

MViT就是Transformer和多尺度分层建模相融合的产物。

Abstract

通过将多尺度、层次性特征的开创性思想与transformer模型联系起来,我们提出了用于视频和图像识别的多尺度视觉transformer,MViT。多尺度transformer有几个channel-resolution扩展过程。从输入分辨率和一个小的通道维度开始,每个stage分层地扩展通道容量,同时降低空间分辨率。这创建了一个多尺度的特征金字塔,其中早期的层以高空间分辨率运行,以模拟简单的低层次视觉信息,而更深的层则有空间粗糙但复杂的高维特征。我们评估了先前基础架构,它们为密集性质的视觉信号建模,用于各种视频识别任务。在这些任务中,并发vision-transformer依赖大规模外部预训练,并且在计算和参数方面成本高出MViT 5-10倍。我们进一步消除了时间维度,并将我们的模型应用于图像分类,它优于先前在视觉transformer上的工作。代码可在:https: //github.com/facebookresearch/SlowFast获得。

Introduction

我们从计算机视觉神经网络模型的智力历史开始。基于对猫和猴子视觉皮层的研究,Hubel和 Wiesel开发了一种视觉通路的分层模型,其神经元位于较低区域,例如 V1 响应定向边缘和条形等特征,而在较高区域响应更具体的刺激。Fukushima提出了Neocogniztron,这是一种由Hubel和 Wiesel层次结构明确驱动的模式识别神经网络架构。他的模型具有交替的简单细胞和复杂细胞层,从而结合了下采样和平移不变性,从而结合了卷积结构。LeCun等人采取了使用反向传播来训练该网络权重的额外步骤。通过这些核心工作,层次结构的视觉处理主要方面已经建立起来:(i)随着处理层次的上升,空间分辨率降低(ii)增加不同“通道”的数量,每个通道对应着越来越专一的功能。

同时,计算机视觉社区开发了多尺度处理,有时被称为“金字塔”策略。有两个动机:(i)采用较低分辨率,减少计算需求;(ii)在较低分辨率下更好地感知“上下文”,然后可以指导在较高分辨率下的工作。

Transformer架构允许学习在集合上定义的任意函数,并且在语言理解和机器翻译等序列任务中获得了可扩展的成功。基本上,Transformer使用具有两个基本操作的块。首先是对元素间关系建模的attention操作。其次是多层感知器multi-layer perceptron,MLP,它对元素内部的关系进行建模。将这些操作与归一化、残差连接交织在一起,可以使Transformer推广到各种各样的任务。

最近,Transformer被应用于关键的计算机视觉任务,如图像分类。在架构普遍主义的精神下,vision Transformer在各种数据和计算机制下接近卷积模型的性能。vision Transformer的第一层以2D卷积的方式对输入进行“拼接”,然后是一堆Transformer块,目的是在归纳偏置很小的情况下展示Transformer架构的强大功能。

在本文中,我们的目的是将多尺度、层次结构的基本思想与Transformer模型联系起来。我们假设分辨率和通道缩放的基本视觉原理有利于Transformer模型在各种视觉识别任务中。我们提出了多尺度vision transformer models(MViT),这是一种用于建模视觉数据(如图像和视频)的Transformer架构。考虑一个输入图像,如图1所示。与传统的Transformer在整个网络中保持恒定的信道容量和分辨率不同,多尺度Transformer有几个channel-resolution “scale”阶段。从图像分辨率和小通道维度开始,每个stage在降低空间分辨率的同时分层扩展通道容量。这在Transformer网络内部创建了一个多尺度的特征激活金字塔,有效地将Transformer的原理与多尺度、层次结构连接起来。

(参照ViT,模型基于纯Transformer架构,所以采用了Patch操作。图中的1,2,3,4是patch的大小,随着模型深入,patch是变大的,但是空间分辨(Patch分辨率)是降低的。)

由于前面网络层信道容量小,模型可以在高空间分辨率下运行,以模拟简单的低级视觉信息。反过来,更深的网络层可以有效地专注于空间粗略但有复杂的高级特征,以对视觉语义进行建模。MViT基本优势来自于视觉信号的极其密集的性质,这种现象在视频中捕获的时空视觉信号更加明显。同时,这种video multiscale models存在强烈的隐式时间偏差。

Related Work

Convolutional networks (ConvNets)

ConvNets融合了下采样、移位不变性和共享权重,是图像和视频计算机视觉任务的事实上的标准骨干。

Self-attention in ConvNets

自注意机制已被用于图像理解、无监督对象识别以及视觉和语言。自注意运算和卷积网络的混合也被应用于图像理解和视频识别。

Vision Transformers

目前,人们对将变换器应用于视觉任务的热情大多始于vision transformer(ViT)和detection transformer。我们直接建立在允许通道扩展和分辨率下采样的分阶段模型的基础上。DeiT提出了一种数据高效的方法来训练ViT。我们的训练配方建立在相同设置下的DeiT之上,并将我们的图像分类模型与之进行比较。

Efficient Transformers

最近的工作降低了二次注意力的复杂性,使转换器在自然语言处理应用程序中更高效,这是对我们方法的补充。还有几项并行工作提出了一种基于ViT的视频架构。然而,这些方法依赖于对大量外部数据(如ImageNet21K)进行预训练,因此使用了适应性最小的普通ViT。相比之下,我们的MViT为transformer引入了多尺度、层次特征,允许在没有大规模外部数据的情况下对密集的视觉输入进行有效建模。

Multiscale Vision Transformer,MViT

通用多尺度Transformer架构建立在stage的核心概念之上。每个stage由多个具有特定时空分辨率和通道维度的Transformer block组成。多尺度Transformer的主要思想是逐步扩展信道容量,同时从输入到输出网络池化分辨率。

Multi Head Pooling Attention

我们首先描述了Multi Head Pooling Attention(MHPA),这是一种自注意算子,它能够在transformer块中进行灵活的分辨率建模,允许多尺度transformer以逐渐变化的时空分辨率进行操作。与原始的多头注意(MHA)算子不同,其中通道维度和时空分辨率保持固定,MHPA池化潜在张量序列,以减少参与输入的序列长度(分辨率)。

Multiscale Transformer Networks

MViT是仅使用 MHPA 和 MLP 层进行视觉表示学习的多尺度Transformer模型。

Preliminaries: Vision Transformer (ViT)

Vision Transformer (ViT) 架构首先对分辨率为 T ×H×W 的输入视频进行切割,其中 T 是帧的数量 ,H代表高度和W代表宽度,每个大小为 1×16×16 的非重叠块,然后在展平的图像块上进行线性层逐点应用,将它们投影到transformer的潜在维度 D 中。这相当于核大小为1×16×16的卷积,如表1中模型定义中的patch1阶段。

接下来,将位置嵌入E∈R添加到具有维度D、长度为L的投影序列的每个元素,以编码位置信息并打破排列不变性。将可学习类嵌入附加到投影的图像patch。

然后将得到的长度为 L + 1 的序列由 N 个transformer块的堆栈顺序处理,每个块执行注意力 MHA、多层感知器MLP和层归一化LN操作。将X视为块的输入,单个transformer块的输出Block(X) 由下式计算

N个连续块之后的结果序列被层归一化,类嵌入class embedding被提取并通过线性层来预测所需的输出(例如类)。默认情况下,MLP 的隐藏维度为 4D。

值得注意的是,ViT在所有块中保持恒定的信道容量和空间分辨率。

Multiscale Vision Transformers (MViT)

我们的关键概念是逐步增长通道分辨率(即维度),同时降低整个网络的时空分辨率(即序列长度)。通过设计,我们的 MViT 架构在早期层中具有精细的时空(和粗通道)分辨率,在后期层中上采样/下采样到粗时空(和细通道)分辨率。

Scale stages

一个scale stage被定义为一组N个transformer块,它们在同一尺度上操作,在通道和空间时间维度D×T ×H×W上具有相同的分辨率。在输入(表 2 中的 cube1),我们将patch(或立方体,如果它们具有时间范围)投影到更小的通道维度(例如,比典型的 ViT 模型小 8 倍),但更长序列(例如 4×4 = 16 倍比典型的 ViT 模型密集;参见表 1)。

在stage转换(例如 scale1 到 scale2 ,表 2)中,对处理后的序列的通道维度进行上采样,同时对序列的长度进行下采样。这有效地降低了底层视觉数据的时空分辨率,同时允许网络在更复杂的特征中吸收处理后的信息。

Channel expansion

当从一个stage过渡到下一个stage时,我们通过将前一阶段最终 MLP 层的输出增加一个相对于阶段引入的分辨率变化的因素来扩展通道维度。具体来说,如果我们将时空分辨率下采样 4 倍,我们将通道维度增加 2 倍。

提高通道数就是通过简单的全连接层对向量维度D进行映射。

Query pooling

池化操作不仅提供了K和V向量的长度的灵活性,而且也提供了Q的长度的灵活性,从而输出序列。以内核s池化q向量 P(Q; k; p; s)  ,会导致序列变短。我们的目的是在stage开始时降低分辨率,然后在每个stage保持这种分辨率,只有每个stage的第一个池化注意力算子在非退化查询步幅 sQ > 1 下运行,所有其他算子都被限制为 sQ≡(1,1,1)。

PS:降低空间分辨率=降低序列长度=降低Q向量长度。

Key-Value pooling

与q pooling不同,改变K和V张量的序列长度不会改变输出序列长度、时空分辨率。然而,它们在池化注意算子的整体计算需求中起着关键作用。

我们将 K、V 和 Q 池化解耦,在每个阶段的第一层使用 Q 池化,并在所有其他层中使用 K、V 池化。由于K和V张量的序列长度需要与允许注意力权重计算相同,因此 K 和 V 张量上使用的池化步幅需要相同。在我们的默认设置中,我们将所有池化参数 (k; p; s) 约束为相同的,即stage内的 ΘK ≡ ΘV,但跨stage自适应地将 w.r.t 更改为尺度。

Skip connections

由于残差块内的通道维度和序列长度变化,我们跳跃连接以适应其两端之间的维度不匹配。MHPA 通过将查询池运算符 P(·; ΘQ) 添加到残差路径中来处理这种不匹配。如下图,我们不是直接将 MHPA 的输入 X 添加到输出中,而是将池化的输入 X 添加到输出中,从而将分辨率与参与查询 Q 匹配。为了处理阶段变化之间的通道维度不匹配,我们采用了一个额外的线性层,它对MHPA操作的层归一化输出进行操作。请注意,这与在非归一化信号上运行的其他(保留分辨率)跳跃连接不同。

(这一步,必须保证L k = L v,即图中THW ,所以要降低空间分辨率,需要改变Q向量的序列长度。我们知道要改变序列长度,一个很好的办法是pooling操作。现在对Q进行pooling操作,同时实验证明K,V向量pooling会提高相应指标,所以对K,V向量也进行了pooling操作,但是不会影响空间分辨率的大小。为了保证残差connection成立,需要对输入X同样进行和Q向量一样的pooling操作。)

同样证明,降低空间分辨率=降低序列长度=降低Q向量长度。

Experiments

请查看原文。MViT主要是用来处理视频序列,作者做了大量的实验来处理视频任务,同时也在图片任务上进行了测试,都取得了不错的结果。另外,该论文消融实验还是做的蛮多的,建议多读读,也许可以学到一些东西。

ViT-B/ MViT-B/ MViT-S

ViT-B框架,即原版ViT中没有分层结构,输出和输入形状是一样。MViT采用MHPA,引入了分层结构,提出了两个不同大小的模型MViT-B/ MViT-S。值得注意的是,两个模型的体量都比较小,不到7G的显存就可以运行MViT-B。

同其他模型相比,可以看到MViT性能还是比较优秀。

Conclusion

我们提出了MViT,旨在将多尺度、层次结构的基本概念与transformer模型连接起来。MViT 在降低视觉分辨率的同时分层扩展了特征复杂性。在实证评估中,MViT 在视频和图像识别方面都比单尺度模型显示出有根本的优势。

本文由深圳季连科技有限公司AIgraphX自动驾驶大模型团队整理编辑。如有错误,欢迎在评论区指正,原文链接如下:

Multiscale Vision Transformers https://arxiv.org/abs/2104.11227.

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection,

https://arxiv.org/abs/2112.01526.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/434983.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu20.04 安装ROS2 记录

主要参考B站古月居的ROS2入门21讲 和 以下链接&#xff08;基本和视频上一致&#xff09; ubuntu20.04安装ROS2 详细教程_ubuntu20.04 ros2-CSDN博客 但是中间有些需要注意的地方&#xff0c; 1&#xff0c;添加源 步骤中提到 sudo curl -sSL https://raw.githubuserconten…

深入解析HTTPS:安全机制全方位剖析

随着互联网的深入发展&#xff0c;网络传输中的数据安全性受到了前所未有的关注。HTTPS&#xff0c;作为HTTP的安全版本&#xff0c;为数据在客户端和服务器之间的传输提供了加密和身份验证&#xff0c;从而确保了数据的机密性、完整性和身份真实性。本文将详细探讨HTTPS背后的…

分类预测 | Matlab实现DT决策树多特征分类预测

分类预测 | Matlab实现DT决策树多特征分类预测 目录 分类预测 | Matlab实现DT决策树多特征分类预测分类效果基本描述程序设计参考资料分类效果

QT发生弹出警告窗口

QTC开发程序弹出警告窗口&#xff0c;如上图 实施代码&#xff1a; #include <QMessageBox> int main() {// 在发生错误的地方QMessageBox::critical(nullptr, "错误", "发生了一个错误&#xff0c;请检查您的操作。");}上面的文字可以更改&#x…

openssl3.2 - 测试程序的学习 - 准备openssl测试专用工程的模板

文章目录 openssl3.2 - 测试程序的学习 - 准备openssl测试专用工程的模板概述笔记工程中需要的openssl的库实现END openssl3.2 - 测试程序的学习 - 准备openssl测试专用工程的模板 概述 openssl3.2 - 测试程序的学习 整了几个test.c, 每开一个新的测试工程, 总要改这改那的. …

Spring Boot 中使用 Spring MVC基础

Spring MVC基础 一、控制器 controller1.定制控制器的方法&#xff08;1&#xff09;接收请求&#xff08;2&#xff09;接收请求参数&#xff08;3&#xff09;返回值 二、模型 Modle三、视图 View四、总结 Spring MVC 是非常著名的 Web 应用框架&#xff0c;现在的大多数 Web…

AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀

目录 引言 1. Python在股票市场分析中的应用 2. 投资组合优化 3. 风险管理与预测 时间序列分析 机器学习在风险预测中的应用 大数据分析与风险建模 总结 ⭐️ 好书推荐 【内容简介】 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默…

代码随想录算法训练营day4 | 链表(2)

一、LeetCode 24 两两交换链表中的节点 题目链接&#xff1a;24.两两交换链表中的节点https://leetcode.cn/problems/swap-nodes-in-pairs/ 思路&#xff1a;设置快慢指针&#xff0c;暂存节点逐对进行交换。 代码优化前&#xff1a; /*** Definition for singly-linked list…

STL_list

一、有关list的介绍 list是可以在常数范围内在任意位置进行插入和删除的序列式容器&#xff0c;并且该容器可以前后双向迭代list的底层是双向链表结构&#xff0c;双向链表中每个元素存储在互不相关的独立节点中&#xff0c;在节点中通过指针指向其前一个元素和后一个元素。Ii…

JS之隐式转换与布尔判定

大家思考一下 [ ] [ ] &#xff1f; 答案是空字符串 为什么呢&#xff1f; 当做加法运算的时候&#xff0c;发现左右两端存在非原始类型&#xff0c;也就是引用类型对象&#xff0c;就会对对象做隐式类型转换 如何执行的&#xff1f;或者说怎么查找的&#xff1f; 第一步&…

2. HarmonyOS 应用开发 DevEco Studio 准备-2

2. HarmonyOS 应用开发 DevEco Studio 准备-2 首选项设置 中文设置 主题 字体 插件安装和使用 保存时操作 编辑器 工程树管理 代码树管理 标记 字符串可视化编辑 参考文档 常用快捷键 编辑 查找或替换 编译与运行 调试 其他 预览 页面预览 自定义组件预览 预览…

深度学习-使用Labelimg数据标注

数据标注是计算机视觉和机器学习项目中至关重要的一步&#xff0c;而使用工具进行标注是提高效率的关键。本文介绍了LabelImg&#xff0c;一款常用的开源图像标注工具。用户可以在图像中方便而准确地标注目标区域&#xff0c;为训练机器学习模型提供高质量的标注数据。LabelImg…