FSOD论文阅读 - 基于卷积和注意力机制的小样本目标检测

来源:知网

标题:基于卷积和注意力机制的小样本目标检测
作者:郭永红,牛海涛,史超,郭铖

郭永红,牛海涛,史超,郭铖.基于卷积和注意力机制的小样本目标检测 [J/OL].兵工学报. https://link.cnki.net/urlid/11.2176.TJ.20231108.1418.002

摘要

  1. 典型的FSOD使用Fast R-CNN作为基本的检测框架
  2. 本文亮点:引入混合扩张卷积确保更大的感受野并减少图像信息的损失;提出支持特征动态融合模块,以每个支持特征和查询特征之间的相关性为权重,自适应地融合支持特征

引言

  1. 早期的FSOD算法遵循元学习范式,首先对训练数据进行采样,然后利用元学习方法训 练FSOD任务的模型,但是元学习器在学习迭代过程中容 易出现非收敛问题(学习算法无法达到一个稳定的解或最优解的状态)
  2. 基于微调的FSOD方法可有效解决非收敛问题(主要是因为这些方法利用了预先训练好的模型和知识,从而在面对有限数据时更有效地学习和适应新任务),基于微调的FSOD方法首先在大 规模基础类数据集上训练检测器,在微调过程中, 主干网络参数可被重用或冻结,而只有Box分类器和回归器是用新数据训练的
  3. Faster R-CNN算法:主要由三部分组成 - 特征提取器、区域候选网络(RPN)和检测头。
  4. Fast R-CNN的工作流程:特征提取器使用卷积神经网络来获得输入图像的feature maps。RPN将feature maps作为输入生成 候选框,并对候选框进行二元分类和粗略回归,将 分类好的候选框映射到feature maps得到感兴趣区域 (RoI)的特征矩阵,发送给后续检测网络,最后由 检测头输出分类和回归的结果
  5. 现有的二阶 段检测算法仍然存在两个明显的缺点。总结就是1、采样过程中的信息丢失. 2、用均值得到的类别融合特征向量会丢失信息
  6. 为解决以上两个问题,文章提出两个方法:1、在主干网络中引入混 合扩张卷积(HDC),以增加感受野. 2、提出了支持特征动态融合(SFDF)模块,使用每个支持特征和查询特征之间的相似性作为权重,动态地融合支持特征,充分利用支持数据

FSOD 任务概述

  1. 一阶段检测算法 - 使用主干网络对图像进行特征提取,直接对特征图像进行分类和回归,例如SSD、YOLO,优点是快,缺点是定位精度低
  2. 二阶段检测算法 - 先找到可能包含目标的RoI,然后对区域进行分类和回归,例如Fast R-CNN,优点是定位精度高,缺点是慢
  3. 综上,在做迁移学习的FSOD时,可以考虑使用以上模型做为基准模型,然后魔改模型中的某部分(本文就是这么干的),然后找到一个baseline,做效率对比
  4. 已有算法:Meta R-CNN(基于transformer)、TFA、MPSR、FSCE、CME、DeFRCN(回头可以考虑使用以上算法做为baseline然后魔改自己的模型测试性能提升)

基于卷积和注意力机制网络结构

  1. N-way K-shot: N个类别,每个类别K个样本
  2. 文章的主干网络是ResNet-101,在主干网络中加入HDC(混合扩张卷积模块)和SFDF(支持特征动态融合模块),模型示意图如下:在这里插入图片描述
  3. HDC模块:混合扩张卷积(扩张卷积:在卷积核之间引入空间,扩大卷积覆盖的范围),本文引入了一个(1, 2, 5)的扩张卷积,对比起(2, 2, 2)的扩张卷积来,感受野的范围更大,且保留了图像信息的连续性:在这里插入图片描述
  4. 扩张卷积引入了间隔,那么扩张卷积是如何保证图像信息不丢失的呢? - 卷积在滑动的过程中会走过每个像素:保证参数不变的同时扩大了感受野.
  5. SFDF模块:该模块首先计算查询特征与支持 集中每一类的每个特征之间的相似度,然后将该系数作为权重,对支持集中每一类的每个特征进行加权求和操作,这样生成的支持集特征可以包含对象最有鉴别性的信息

实验

  1. 使用 ImageNet 数据集上预训练 ResNet101 作为原始模型,使用 RoI Align 作为 RoI 特征提 取器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/178386.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【unity插件】Shader实现UGUI的特效——UIEffect为 Unity UI 提供视觉效果组件

文章目录 前言地址描述Demo 演示Installation 安装如何玩演示用法使用示例完结 前言 一般的shader无法直接使用在UI上,需要在shader中定义特定的面板参数,今天就来推荐github上大佬做的一套开源的一系列UGUI,Shader实现的特效——UIEffect 为…

汽车制动系统技术分析概要

目录 1.基本功能概述 2. 基本工作原理分析 2.1 Two-Box系统架构(Bosch_IBooster) 2.2 One-Box系统架构(Bosch_IPB) 2.3 ​​​​​​​ABS技术 2.4 TCS技术 2.5 VDC技术 2.6 EPB技术 2.7 小结 3. 该场景应用发展趋势分析 1.基本功能概述 传统汽车的底盘主要由传动系、…

RedisTemplate乱码问题

其实这是在解决一个项目问题是发现的,因为原开发者的大意,造成了系统出现严重的逻辑问题。 因为系统系统采用分模块开发,某模块使用Spring提供的RedisTemplate进行值的读写,另一位使用了框架基于Jedis的一套公用方法进行值的读写…

Knowledge Graph Reasoning with Relational Digraph

摘要: 知识图推理的目的是从已有的事实中推断出新的事实。基于关系路径的推理方法具有较强的可解释性和可转移性。然而,路径在捕获图中的局部证据方面自然受到限制。在本文中,我们引入了一种新的关系结构,即关系有向图(r-digraph)&#xff0…

人工智能基础_机器学习036_多项式回归升维实战3_使用线性回归模型_对天猫双十一销量数据进行预测_拟合---人工智能工作笔记0076

首先我们拿到双十一从2009年到2018年的数据 可以看到上面是代码,我们自己去写一下 首先导包,和准备数据 from sklearn.linear_model import SGDRegressor import numpy as np import matplotlib.pyplot as plt X=np.arange(2009.2020)#左闭右开,2009到2019 获取从2009到202…

分布式下多节点WebSocket消息收发

1、使用场景 2、疑问 第一次发送请求后,通过N1,W2,到达service2,建立websocket连接。 1、接下来发送的消息,通过Ngixn后和网关gateway后还能落在service2上面吗? 如果不能落在service2上,需要怎…

C++ [多态]

本文已收录至《C语言和高级数据结构》专栏! 作者:ARMCSKGT 多态 前言正文多态的概念多态的定义构成多态的条件关于final和override关于重载,重写和重定义 抽象类概念补充 多态的原理虚表指针和虚表关于虚函数的调用动态绑定和静态绑定 单继承与多继承中的…

Java基础(第七期):Java面向对象和类 类的封装 Java构造器 JavaBean标准

Java基础专栏 Java基础(第七期) 面相对象 面向对象(Object-oriented)是一种编程思想和方法,它将程序的设计和组织建立在对象的概念上。在Java中,每个对象都是类的一个实例,而类定义了相同类型对…

FineReport填报设计-填报设置-填报校验

填报:指对信息进行录入,并存入数据库,与数据库进行交互。 FineReport中的填报是在报表填报属性中通过数据连接,将数据库数据表中的字段与单元格绑定起来,然后将数据一一对应的提交入库。 1.添加控件:在需要…

二维码在区域巡查中的应用:隐患上报、巡逻巡更、管线巡查

针对管理制度不健全、维修不及时、纸质表格容易丢失等问题,可以在草料上搭建区域巡查二维码系统。通过组合功能模块的方式,实现扫码记录巡查情况、上报隐患和整改信息、发现异常问题后及时反馈给相关负责人等功能。 比如上海延吉物业管理有限公司搭建的…

汽车OBD2蓝牙诊断仪解决方案程序开发

1、因TL718已经为你建立了物理层、数据链层和部分应用层的协议,所以只要OBD2标准应用层协议文本,ISO15031-5 或 SAE J1979(这两个协议是相同的内容)。 2、TL718诊断接口 1 套或用TL718芯片自建电路。3、家用PC机电脑一台。4、安…

【考研数据结构代码题6】构建二叉树及四大遍历(先中后层)

题目:请你编写完整的程序构建一棵二叉树并对其进行先序遍历、中序遍历、后序遍历与层次遍历,分别打印并输出遍历结果 难度:★★★ 二叉树的存储结构 typedef struct Node{char data;//数据域struct Node* left;//左子树struct Node* right;//…