【Deformable DETR】

最近学习CV中的Transformer有感而发,网上关于Deformable DETR通俗的帖子不是很多,因此想分享一下最近学习的内容。第一次发帖经验不足,文章内可能有许多错误或不恰之处欢迎批评指正。

Abstract

DETR消除了目标检任务中的手工设计痕迹,但是存在收敛慢以及Transformer的自注意力造成的特征图分辨率不能太高的问题,这就导致了小目标检测性能很差。我们的Deformable DETR只在参考点附近采样少量的key来计算注意力,因此我们的方法收敛快并且可以用到多尺度特征。

1、Introduction

传统目标检测任务有很多手工设计痕迹,所以不是端到端的网络。DETR运用到了Transformer强大的功能以及全局关系建模能力来取代目标检测中人工设计痕迹来达到端到端的目的。

DETR的两大缺点

(1)收敛速度慢:因为全局像素之间计算注意力要收敛到几个稀疏的像素点需要消耗很长的时间。

(2)小目标检测差:目标检测基本都是在大分辨率的特征图上进行小目标的检测,但是Transformer中的Self Attention的计算复杂度是平方级别的,所以只能利用到最后一层特征图。

可变形卷积DCN是一种注意稀疏空间位置很好的机制,但是其缺乏元素之间关系的建模能力

综上所述,Deformable Attention模块结合了DCN稀疏采样能力和Transformer的全局关系建模能力。这个模块可以聚合多尺度特征,不需要FPN了,我们用这个模块替换了Transformer Encoder中的Multi-Head Self- Attention模块和Transformer Decoder中的Cross Attention模块。

Deformable DETR的提出可以帮助探索更多端到端目标检测的探索。提出了bbox迭代微调策略两阶段方法,其中iterative bounding box refinement类似Cascade R-CNN方法,two stage类似RPN

2、Related work

Transformer中包含了多头自注意力和交叉注意力机制,其中多头自注意力机制对key的数量很敏感,平方级别的复杂度导致不能有太多的key,解决方法主要可以分为三类。

(1)第一类解决方法为在key上使用预定义稀疏注意力模式,例如将注意力限制在一个固定的局部窗口上,这将导致失去了全局信息。

(2)第二类是通过数据学习到相关的稀疏注意力。

(3)第三类是寻找自注意力中低等级的属性,类似限制关键元素的尺寸大小。

图像领域的注意力方法大多数都局限于第一种设计方法,但是因为内存模式原因速度要比传统卷积慢3倍(相同的FLOPs下)。DCN可以看作是一种自注意力机制,它比自注意力机制更加高效有效,但是其缺少元素关系建模的机制。我们的可变形注意力模块来源于DCN,并且属于第二类注意力方法。它只关注从q特征预测得到的一小部分固定数量的采样点

目标检测任务一个难点就是高效的表征不同尺度下的物体。现在有的方法比如FPN,PA-FPN,NAS-FPN,Auto-FPN,BiFPN等。我们的多尺度可变形注意力模块可以自然的融合基于注意力机制的多尺度特征图,不需要FPN了

3、Revisiting Transformers And DETR

3.1、Transformer中的Multi-Head Self-Attention

该模块计算复杂度为: o(N_{q}{C^{2}} + N_{k}{C^{2}} + N_{q}N_{k}{C}),其中 C 代表特征图维度, N_{q} 和 N_{k} 均为图片中的像素(pixel),因此有N_{q} = N_{k} \gg C。所以计算复杂度可以简化为 o(N_{q}N_{k}{C}) ,可以得出其与图片像素的数量成平方级别的计算复杂度。

3.2、DETR

DETR在目标检测领域中引入了Transformer结构并且取得了不错的效果。这套范式摒弃了传统目标检测中的anchorpost processing 机制,而是先预先设定100个object queries然后进行二分图匹配计算loss。其具体流程图(pipeline)如下

图1. DETR Pipeline

1、输入图片3×800×1066的一张图片,经过卷积神经网络提取特征,长宽32倍下采样后得到2048×25×34,然后通过一个1×1 Conv进行降维最终得到输出shape为256×25×34.

2、positional encoding为绝对位置编码,为了和特征完全匹配形状也为256×25×34,然后和特征进行元素级别的相加后输入到Transformer Encoder中。

3、输入到Encoder的尺寸为(25×34)×256=850×256,代表有850个token每个token的维度为256,Encoder不改变输入的Shape。

4、Encoder的输出和object queries输入到Decoder中形成cross attentionobject queries的维度设置为anchor数量×token数量

5、Decoder输出到FFN进行分类和框定位,其中FFN是共享参数的。

tips: 虽然DETR没有anchor,但是object queries其实就是起到了anchor的作用。

真的是很多就是会影响的纷纷, 的评分法,的得分,好吃的很疯狂,的复合肥‘的判断【二分侧福晋】得分后方可,

DETR缺点在于:

(1)计算复杂度的限制导致不能利用大分辨率特征图,导致小目标性能差

(2)注意力权重矩阵往往都很稀疏,DETR计算全部像素的注意力导致收敛速率慢

4、Method

4.1、Deformable Attention Module

图2. Deformable Attention Module

Deformable Attention Module主要思想是结合了DCN和自注意力,目的就是为了通过在输入特征图上的参考点(reference point)附近只采样少数点(deformable detr设置为3个点)来作为注意力的  k。因此要解决的问题就是:(1)确定reference point。(2)确定每个reference point的偏移量(offset)。(3)确定注意力权重矩阵 A_{mqk}。在Encoder和Decoder中实现方法不太一样,加下来详细叙述。

在Encoder部分,输入的Query Feature z_{q}为加入了位置编码的特征图(src+pos),value(x)的计算方法只使用了src而没有位置编码(value_proj函数)。

(1)reference point确定方法为用了torch.meshgrid方法,调用的函数如下(get_reference_points),有一个细节就是参考点归一化到0和1之间,因此取值的时候要用到

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/288866.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

强大矢量图编辑器 Boxy SVG 激活最新

Boxy SVG for Mac功能介绍 1、干净,直观的UI深受Inkscape,Sketch和Adobe illustrator的启发 2、广泛支持画布上编辑对象几何,转换,绘画和其他属性 3、保存为SVG和SVGZ格式,导出为PNG,JPG,WebP和…

3 - Electron app BrowserWindow对象-关于窗口

优雅的打开应用~ 当加载缓慢,打开应用的一瞬间会出现白屏,以下方法可以解决 const mainWindow new BrowserWindow({ show: false }) mainWindow.once(ready-to-show, () > {mainWindow.show() }) 设置背景颜色 const win new BrowserWindow({ b…

hyper-v ubuntu2204指定静态ip地址

虚拟机静态IP设置 虚拟机每次重新启动,都会动态分配IP,这导致我们无法使用一个固定的ip连接到虚拟机内部。解决该问题的最直接有效的办法就是给虚拟机绑定2张网卡,一张用于连接外网、一张用于连接内网。 init 0 关机,也可以从管…

flask 之上传与下载

from flask import Flask, render_template, request, send_from_directory, redirect, url_for import osapp Flask(__name__)# 上传文件存储路径 UPLOAD_FOLDER uploads app.config[UPLOAD_FOLDER] UPLOAD_FOLDERapp.route(/) def index():# 确保上传文件夹存在if not os.…

最新鸿蒙HarmonyOS 使用Progress、Toggle开发一个接单界面

Progress 进度条组件,用于显示内容加载或操作处理等进度。 接口 Progress(options: {value: number, total?: number, type?: ProgressType}) Toggle组件提供勾选框样式、状态按钮样式及开关样式。 接口 Toggle(options: { type: ToggleType, isOn?: boolean …

【漏洞复现】CVE-2023-6895 IP网络对讲广播系统远程命令执行

漏洞描述 杭州海康威视数字技术有限公司IP网络对讲广播系统。 海康威视对讲广播系统3.0.3_20201113_RELEASE(HIK)存在漏洞。它已被宣布为关键。该漏洞影响文件/php/ping.php 的未知代码。使用输入 netstat -ano 操作参数 jsondata[ip] 会导致 os 命令注入。 开发语言:PHP 开…

鸿蒙原生应用再添新丁!喜马拉雅入局鸿蒙

鸿蒙原生应用再添新丁!喜马拉雅入局鸿蒙 来自 HarmonyOS 微博12月20日消息, #喜马拉雅正式完成鸿蒙原生应用版本适配#,作为音频业巨头的喜马拉雅 ,将基于#HarmonyOS NEXT#创造更丰富、更智慧的全场景“声音宇宙”!#鸿…

做一个wiki页面是体验HTML语义的好方法

HTML语义:如何运用语义类标签来呈现Wiki网页 在上一篇文章中,我花了大量的篇幅和你解释了正确使用语义类标签的好处和一些场景。那么,哪些场景适合用到语义类标签呢,又如何运用语义类标签呢? 不知道你还记不记得在大…

2023年总结|大家的共同努力成就了Sui网络的增长里程碑

2023年是Sui的开创之年,随着主网的推出,其创新技术真正经受了考验。在前一年开发了早期项目并在开发网和测试网上进行了工作之后,Sui作为Layer 1区块链投入了大量时间和精力,同时也背负着很多期待。 Sui汲取区块链行业的教训&…

C# WPF上位机开发(多线程中锁的使用)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 多线程编程一般都会涉及到锁的时候,很多人可能觉得很意外,为什么会需要这么一个锁。本质上,这主要还是因为多线…

【C++初阶】学习string类的模拟实现

目录 前言:一、创建文件和类二、实现string类2.1 私有成员和构造函数2.2 析构函数2.3 拷贝构造函数2.3.1 写法12.3.2 写法2 2.4 赋值重载函数2.4.1 写法12.4.2 写法2 2.5 迭代器遍历访问2.6 下标遍历访问2.7 reserve2.8 resize2.9 判空和清理2.10 尾插2.10.1 尾插字…

逻辑门符号

逻辑门是用于实现布尔表达式(特别是二值布尔表达式)的基本电子电路。它们提供了一种基于布尔代数定律组合和处理数字信号的方法。 在数学上,我们可以使用布尔代数来处理二进制数并简化逻辑表达式。但在数字系统中实际实现时,我们…