YOLOS:大道至简,直接使用预训练ViT进行实时目标检测 | NeurIPS 2021

news/2024/11/14 17:34:04/文章来源:https://www.cnblogs.com/VincentLee/p/18392485

论文探索了在中型ImageNet-1k数据集上预训练的普通ViT到更具挑战性的COCO目标检测基准的可迁移性,提出了基于Vision TransformerYou Only Look at One Sequence(YOLOS)目标检测模型。在具有挑战性的COCO目标检测基准上的实验结果表明,2D目标检测可以以纯sequence-to-sequence的方式完成,并且附加的归纳偏置最小

来源:晓飞的算法工程笔记 公众号

论文: You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

  • 论文地址:https://arxiv.org/abs/2106.00666
  • 论文代码:https://github.com/hustvl/YOLOS

Introduction


Vision Transformer(ViT) 证明,直接继承自NLPTransformer编码器架构可以在大规模图像识别方面表现出色。以图像块嵌入序列作为输入,仅需少量的Fine-tune数据,ViT即可成功地从纯粹的sequence-to-sequence角度将足量数据预训练的视觉表达迁移到更具体的图像分类任务。

  一个自然的问题是:ViT能否直接迁移到更具挑战性的对象和区域级目标任务中,例如图像级识别之外的目标检测?

ViT-FRCNN是第一个使用预先训练的ViT作为Faster R-CNN目标检测器的主干网络,但这种设计无法摆脱对卷积神经网络(CNN)的依赖和2D归纳偏差。因为ViT-FRCNN需要将ViT的输出序列重新排列为2D空间特征图,依赖于区域池化操作(即RoIPoolRoIAlign)以及基于区域的CNN架构来解码ViT特征,用于对象和区域级别的感知。

  受现代CNN设计的启发,最近的一些工作将特征金字塔等设计引入到Vision Transformer中,这很大程度上提高了包括目标检测在内的密集预测任务的性能。但这些架构是以性能为导向的,不能反映Vision Transformer的特性。另外的一些如DEtection TRansformer(DETR) 的系列工作,使用随机初始化的Transformer来编码和解码CNN特征用于目标检测,也未揭示预训练Transformer的可迁移性。

  直观上,ViT旨在学习远距离依赖关系和全局上下文信息,而不是本地和区域级别的关系。此外,ViT缺乏现代CNN那样的分层架构来处理视觉实体尺寸的巨大变化。根据现有的研究,目前尚不清楚纯ViT是否可以将预训练的通用视觉表达从图像级识别转移到更复杂的2D目标检测任务。

  为了回答这个问题,论文提出了基于ViT架构的目标检测模型You Only Look at One Sequence(YOLOS),具有尽可能少的架构修改、区域先验以及目标任务相关归纳偏差。本质上,从预训练ViTYOLOS检测器的变化非常简单:

  • ViT中用于图像分类的 \([\mathrm{CLS}]\) 标记替换为一百个用于目标检测的 \([\mathrm{DET}]\) 标记。
  • 按照DETR用二分匹配损失替换ViT的图像分类损失,以集合预测的方式进行目标检测。这可以避免像ViT-FRCNN那样将ViT的输出序列重新解释为2D特征图,以及防止在标签分配中引入启发式算法和2D空间结构的先验知识。而且,YOLOS的预测头可以摆脱复杂多样的设计,就像分类层一样紧凑。

YOLOS继承自ViT并不是为了成为另一个高性能目标检测器,而是为了揭示预训练的Transformer从图像识别到更具挑战性的目标检测任务的多功能性和可迁移性。具体来说,论文的主要贡献总结如下:

  • 使用中型ImageNet-1k作为唯一的预训练数据集,表明普通ViT可以成功迁移至复杂的目标检测任务,并以尽可能少的修改在COCO基准上达成有竞争力的结果。
  • 首次证明通过将一系列固定大小的非重叠图像块作为输入,也可以以纯sequence-to-sequence的方式完成2D目标检测。在现有的目标检测器中,YOLOS利用最小的2D归纳偏置。
  • 对于原始ViT,目标检测结果对预训练方法非常敏感并且检测性能远未饱和。因此,YOLOS也可以用作具有挑战性的基准任务来评估ViT的不同(标签监督和自监督)预训练策略。

You Only Look at One Sequence


YOLOS遵循原始ViT架构,并与DETR一样针对目标检测进行优化。YOLOS可以轻松适应NLP和计算机视觉中可用的各种Transformer架构,这种简单的设置并不是为了更好的检测性能而设计的,而是为了尽可能公正地准确揭示Transformer系列在目标检测中的特性。

  • Architecture

  模型架构如图 1 所示,从ViT分类器到YOLOS检测器的变化很简单:

  • 删除用于图像分类的 \([\mathrm{CLS}]\) 标记,附加了一百个随机初始化的可学习检测标记 \([\mathrm{DET}]\) 到输入嵌入 \([\mathrm{PATCH}]\) 以进行目标检测。

  • 在训练过程中,将图像分类损失替换为二分匹配损失,以遵循DETR的设定预测方式进行目标检测。

  • Stem

  常规ViT接收1D序列嵌入作为输入,为了处理2D图像输入,将图像 \(\mathbf{x}\in\mathbb{R}^{H\times W\times C}\) 重塑为展平的2D图像块 \(\mathbf{x}_{\mathrm{PATCH}}\in\mathbb{R}^{N\times(P^2 C)}\)。其中,\((H,W)\) 是输入图像的分辨率,\(C\) 是输入的通道数,\((P,P)\) 是每个图像块的分辨率,\(N=\frac{HW}{P^{2}}\) 是得到的图像块数量。

  使用可训练的线性投影 \(\mathbf{E}\in\mathbb{R}^{(P^2 C)\times D}\)\(\mathbf{x}_{\mathrm{PATCH}}\) 映射到 \(D\) 维,将投影输出 \(\mathbf{x}_{\mathrm{PATCH}}\mathbf{E}\) 作为 \([\mathrm{PATCH}]\) 标记。同时,一百个随机初始化的可学习 \([\mathrm{DET}]\) 标记 \(\mathbf{x}_{\mathrm{DET}}\in\mathbb{R}^{100\times D}\) 也被附加到 \([\mathrm{PATCH}]\) 标记中。

  遵循VIT的做法,将标准的可学习1D位置嵌入 \(\mathbf{P}\in\mathbb{R}^{(N+100)\times D}\) 添加到所有输入标记中以保留位置信息。

  最终得到序列 \(\mathbf{z}_{0}\) 作为YOLOS编码器的输入:

\[{\mathbf z}_{0}=\left[{\mathbf x}_{\mathrm{PATCH}}^{1}{\mathbf E};\cdot\cdot\cdot\ ;{\mathbf x}_{\mathrm{PATCH}}^{N}{\mathbf E};\ {\mathbf x}_{\mathrm{DET}}^{1};\cdot\cdot\cdot\ ;{\mathbf x}_{\mathrm{DET}}^{100}\right]+{\mathbf P}\quad\quad (1) \]

  • Body

YOLOS的主体与ViT基本相同,由一堆Transformer编码器层组成。\([{\mathrm{PATCH}}]\) 标记和 \([{\mathrm{DET}}]\) 标记被同等对待,在Transformer编码器层内执行全局交互。

  每个Transformer编码器层由一个多头自注意力(MSA)块和一个MLP块组成,每个块前应用LayerNorm(LN)处理并且添加残差连接,其中MLP包含一个中间带有GELU非线性激活函数的隐藏层。形式上,第 \(\ell\)YOLOS编码器层的计算如下:

\[\begin{array}{l} {{\mathbf{z}^{\prime}_{\ell}=\mathrm{MSA}({\mathrm{LN}}({\mathbf{z}}_{\ell-1}))+\mathbf{z}_{\ell-1}}} \\ {{\mathbf{z}_{\ell}=\mathrm{MLP}({\mathrm{LN}}({\mathbf{z}}^{\prime}_{\ell}))+\mathbf{z}^{\prime}_{\ell}}} \end{array}\quad\quad (2) \]

  • Detector Heads

YOLOS的检测头摆脱了复杂而笨重的设计,与ViT的图像分类层一样简洁。分类和边界框回归头各由一个MLP实现,其中包含两个带有ReLu非线性激活函数的隐藏层。

  • Detection Token

  论文故意将随机初始化的 \([{\mathrm{DET}}]\) 标记作为对象查询,避免2D结构的归纳偏差以及在标签分配期间引入任务相关的先验知识。

  在COCO上进行微调时,每次前向传递都会在 \([\mathrm{DET}]\) 标记生成的预测与GT之间建立最佳二分匹配。该过程与DETR的标签分配的作用相同,不接触输入的2D结构,即YOLOS不需要像ViT-FRCNN那样将ViT的输出序列重新排列为2D特征图以进行标签分配。理论上,YOLOS在不知道确切的空间结构和几何形状的情况下,执行任何维度的目标检测都是可行的,只要每次传递的输入始终以相同的方式扁平化为序列。

  • Fine-tuning at Higher Resolution

  在COCO上进行微调时,除了用于分类和边界框回归的MLP头以及随机初始化的一百个 \([\mathrm{DET}]\) 标记之外,所有参数均从ImageNet-1k预训练权重中进行初始化。由于微调过程的图像分辨率比预训练时高得多,保持图像块大小 \(P\times P=16\times 16\) 不变就会导致更大的有效序列长度。虽然ViT可以处理任意输入序列长度,但位置嵌入需要执行2D插值以适应不同长度的输入序列。

  • Inductive Bias

  论文精心设计了YOLOS架构,尽可能小地引入额外的归纳偏置,从ViT带来的归纳偏置主来自主干网络部分的图像块提取以及位置嵌入的分辨率调整。

  除此之外,YOLOSViT上没有添加可能引入归纳偏置的卷积(例如 \(3\times 3\) 或其它非 \(1\times 1\))。从学习对象表达的角度来看,论文选择使用 \([{\mathrm{DET}}]\) 标记来绑定目标进行最终预测,避免额外的2D归纳偏置以及任务特定的启发算法。面向性能的CNN设计,如特征金字塔结构、2D局部空间注意力以及区域池化操作也没有使用。

  所有这些设计都是为了在对输入的空间结构和几何形状了解最少的情况下,以纯粹的sequence-to-sequence的方式准确地揭示预训练Transformer从图像识别到目标检测的多功能性和可迁移性。

  • Comparisons with DETR

YOLOS的设计深受DETR的启发:YOLOS跟从DETR使用 \([{\mathrm{DET}}]\) 标记作为目标表达的代理,避免2D结构的归纳偏置和标签分配期间引入任务相关的先验知识,并且YOLOS的训练方式与DETR类似。

  同时,两个模型之间存在一些关键区别:

  • DETR采用Transformer编码器-解码器架构,而YOLOS选择仅编码器的Transformer架构。

  • DETR仅在其CNN主干网络上采用预训练,但让Transformer编码器和解码器通过随机初始化进行训练,而YOLOS自然地继承了任何预训练的ViT表达。

  • DETR在编码图像特征和对象查询之间应用交叉注意力,并在每个解码器层添加辅助的解码损失,而YOLOS始终只查看每个编码器层的一个序列,而不区分 \([{\mathrm{PRTCH}}]\) 标记和 \([\mathrm{DET}]\) 标记。

  • Model Variants

  表 1 展示了不同大小的YOLOS变体。

Experiments


  表 2 和 表 3 展示了不同预训练方法对性能的影响。

  表 4 展示了不同大小模型的预训练性能以及迁移对性能对比。

  图 5 展示了与轻量级CNN目标检测模型对比。

  表 6 展示了与轻量级DETR目标检测模型对比。

  如图 2 和图 3 所示,\([{\mathrm{DET}}]\) 标记对目标位置和大小敏感,而对目标类别不敏感。

  表 7 展示了去掉 \([\mathrm{DET}]\) 标记对性能的影响。



如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/790979.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MetaLlama大模型

llama 大模型介绍我们介绍 LLaMA,这是一个基础语言模型的集合,参数范围从 7B 到 65B。我们在数万亿个Token上训练我们的模型,并表明可以专门使用公开可用的数据集来训练最先进的模型,而无需诉诸专有的和无法访问的数据集。特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-…

GraphRAG 检索增强+图模型

https://arxiv.org/pdf/2404.16130往期的NaiveRAG基本都是显式检索,而GraphRAG通过知识图谱实现了总结能力。知识图谱通常是事先生成的,并存储在系统中,供用户查询和模型使用。 1 引入 通常意义上,RAG的作用是从外部知识源中检索相关信息,使LLM能够回答有关私有或以前未见…

LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重 | CVPR 2024

Less-Attention Vision Transformer利用了在多头自注意力(MHSA)块中计算的依赖关系,通过重复使用先前MSA块的注意力来绕过注意力计算,还额外增加了一个简单的保持对角性的损失函数,旨在促进注意力矩阵在表示标记之间关系方面的预期行为。该架构你能有效地捕捉了跨标记的关…

代码随想录day48 || 739, 每日温度 496, 下一个更大元素 I 503, 下一个更大元素II

739 每日温度 func dailyTemperatures(temperatures []int) []int {// 双指针var res = make([]int, len(temperatures))for i:=0; i<len(temperatures); i++ {for j:=i+1; j<len(temperatures); j++ {if temperatures[j] > temperatures[i] {res[i] = j - ibreak}}}r…

奔驰威霆升级配置单

包围款式中网大灯车窗饰条拉手饰条 把手喷漆 主副驾照地灯 车身饰条 侧包围 自动折叠后视镜 开窗玻璃 凯旋中门 电动中门行李架 帷幕小高顶鲨鱼鳍转向灯 尾翼 大尾翼 尾灯尾门饰条 电动尾门 260款尾门总成 锻造轮毂有什么不同见解可以在评论区共同讨论

Git_Intro

目录1. 实验内容及目的 Contents & Objectives for Lab2. Git 的简要介绍 Brief Introduction for Git3. Git的安装 Installation for Git4. Git的一些基本软件命令操作介绍 Basic Operation Commands for Git4.1 克隆已有仓库 Clone Existing Repository4…

《花100块做个摸鱼小网站! 》第五篇—通过xxl-job定时获取热搜数据

⭐️基础链接导航⭐️ 服务器 → ☁️ 阿里云活动地址 看样例 → 🐟 摸鱼小网站地址 学代码 → 💻 源码库地址一、前言 我们已经成功实现了一个完整的热搜组件,从后端到前端,构建了这个小网站的核心功能。接下来,我们将不断完善其功能,使其更加美观和实用。今天的主题是…

《网络数据安全管理条例(草案)》已审议通过

根据新华社北京8月30日电 国务院总理李强8月30日主持召开国务院常务会议,研究推动保险业高质量发展的若干意见,部署落实大食物观相关工作,审议通过《加快完善海河流域防洪体系实施方案》和《网络数据安全管理条例(草案)》,讨论《中华人民共和国海商法(修订草案)》。会…

Linux系统添加软件快捷方式 (图标)

Linux系统添加软件快捷方式 (图标) 背景 在Linux系统下安装软件,安装软件后,常常缺少软件的快捷方式,不熟悉Linux系统的同学甚至不知道软件安装的位置,就算知道软件安装位置的同学也会因打开点开一大堆文件夹而头疼,因此,在Linux系统性为常用软件添置快捷方式显得尤为重…

工作五年小结 | 面对不确定性快速上升的外部环境,我们该如何寻求突破?

1. 前言工作五年了,来京东马上满一年,前四年在开水团,不禁感叹时间过的真快啊!回想19年从西安交大硕士毕业孤身前往北京开始职业生涯,经历了孤独迷茫到自立坚定,再到23年下定决心携妻还蜀安家,并来到京东开始新的征程,这5年过的很快也很充实。今年也是我的而立之年,感…

像操作tar文件一样操作jar文件,让很多事情变得简单

原创 1024夜谭jar文件即Java归档文件,也称为jar包,是Java应用软件或库,通常聚合了大量的Java类文件、相关的元数据和资源文件。通常由构建工具产生,可以使用IDE、反编译工具或者Java诊断工具如Arthas等查看内容。 如果你对tar命令使用得心应手,那么你将发现jar操作与tar操…

Spearman相关性分析 —— 入门案例

简介 Spearman相关系数,也称为Spearman等级相关系数,是一种非参数的统计度量,用于评估两个变量之间的相关性,即它们是否以某种一致的方式一起变化。与皮尔逊相关系数不同,Spearman相关系数不假设数据是正态分布的,也不要求变量是线性关系。Spearman的检验 在统计学中,p值…