小样本图像目标检测研究综述——张振伟论文阅读

小样本图像目标检测研究综述——张振伟(计算机工程与应用 2022) 论文阅读

目前,小样本图像目标检测方法多基于经典的俩阶段目标检测算法Faster R-CNN作为主干网络,当然也有将YOLO,SSD一阶段目标检测算法作为主干网络的。

检测过程中不仅需要提取分类任务所关注的高层语义信息,还要获取低层级像素级信息实现目标的定位。

1、方法分类

1.2.1 基于度量学习方法

基于度量学习的方法是在获取潜在目标区域特征的前提下,将目标区域特征和支持图像特征转换到相同的嵌入空间,通过计算距离或者相似度对潜在的目标区域进行分类,进而实现对图像中不同目标的检测。

==基于度量学习的方法另一个研究的重点是损失函数设计。一个有效的损失函数应当能使得同类别具有高度的相似度,而不同类别之间相似度尽可能小。==如[23 One-shot Object Detection with co-attention and co-excitation_2019]设计了基于裕度的排名损失(margin-based rank loss),用于隐式学习一种度量来预测区域建议和查询特征的相似性。

度量学习主要体现在最后的分类器部分,用于类别相似度度量。

基于度量学习的方法更容易实现增量式学习,即模型在基类数据集上完成训练后可以直接用于新类别目标检测。但同时由于度量学习重点关注类别相似性,而定位信息则主要依赖于前一阶段区域建议网络,使得模型检测性能还需要进一步验证。

1.2.2 基于数据增强的方法

Wu等[10 Multi-scale positive sample sample refinement for few-shot object detection] 提出了一种多尺度正样本优化方法(MPSR),如下图所示,通过构建目标金字塔(object pyramids),形成多个尺度正样本,而后利用特征金字塔网络(feature pyramid net,FPN)构建特征金字塔(feature pyramids)进一步增强数据多样性,用于对网络进行训练。

image-20230705211550407

1.2.3基于模型结构的方法

image-20230705211719502

在常规检测模型基础上,通过构建新的模型结构提供有效的辅助信息,从而降低对样本数量的依赖,达到小样本条件下检测的目的。

[19 Context-transformer: tackling object confusion for few-shot detection]

直接采用迁移学习,在目标定位方面表现的比较好,但是在分类层面是就比较容易出现混淆等问题。因为目标定位只需要区分定位的目标属于前景还是背景,所以基于此,[19]提出了一种即插即用的上下文转换器模块,该模块由相似性发现(affinity discovery)和上下文聚合(context aggregation)俩个字模块构成,能够发现基类和新类的关联关系,通过上下文关联关系有效解决目标混淆问题。

[8 Few-shot object detection with attention-RPN and multi-relation detector - IEEE 2020]

认为区域候选网络在没有足够辅助信息支持的情况下,难以过滤掉与目标不相关的前景信息,导致网络产生大量的目标不相关信息,为解决上述问题,提出一种新的注意力网络,通过权值共享充分学习目标间的匹配关系以及同类别的通用知识。

[32 Leveraging bottom- up and top-down attention for few-shot object detection 20年7月]

[32] 结合元学习和迁移学习的优点,引入了新颖的注意力目标检测器,能够结合自下而上和自上而下的注意力,其中自下而上的注意力提供了显著区域的先验知识,自上而下的注意力从目标标注信息进行学习。同 时,在常规目标检测损失函数的基础上设计了目标聚焦损失和背景聚焦损失项,目标聚焦损失有助于将同一物体的特征聚集到一起,而背景聚焦损失有助于解决部分未标注目标被错分为背景的问题,最终通过混合训练策略,模型获得了较好的检测性能。

1.2.4基于元学习的方法

[12Meta RCNN: towards fast adaptation for few-shot object detection with Meta learing-2019]

在 Mask RCNN 的基础上提出了 Meta R-CNN,利用支持分支获取类别注意力向量后与兴趣区域特征相融合作为新的预测特征用于检测或分割

[35 Few-shot object detection and viewpoint estimation for objects in the wild-2020]

在 Meta R-CNN的基础上对融合网络进一步改进获得了更好的检测性能

[36 Incremental few-shot object detection-2020]

借鉴CenterNet的结构和思路提出一种中心点预测的元学习方法,该模型能够实现增量式学习,即在添加新类后无需再访问基类数据。

[38 Meta-DETR: few-shot object detection via unified image-level meta-learning]

认为现有的元学习方法主要局限于区域级预测,性能主要依赖于最初定位良好的区域建议。针对这一问题,在 Deformable DETR[39] 基础上,将近年来流行的Transformer[40] 与元学习相结合,提出了图像级元学习小样本目标检测模型,用编码、解码器替代了原有的非极大值抑(NMS)、锚框等启发式组件,实现了在图像层级上的目标定位和分类。

1.2.5 基于微调的方法

首先利用大量的基类数据对现有的模型进行预训练,然后利用少量的新类别对部分参数进行微调。

image-20230705214048665

其难点在于如何相对准确地区分类别相关和类别无关参数以及选择合适的超参数。尽管上述是将骨干网络部分和ROI池化部分作为类别无关的组件,但这种划分仍然缺乏足够的理论支撑。

1.2.6 基于集成的方法

就是将各种方法的优点集成到一起。

image-20230705214446132

2. 实验设计

2.1 数据集

image-20230705214603520

2.2实验设计

文献[16]首次详细介绍了PASCAL VOC和MSCOCO数据集划分设置,在之后的小样本目标检测研究中,基本沿用了文献[16]的数据集设置方式。对于 PASCALVOC 数据集,采用 3 种不同的类别分组,每种分组按照15 个类别作为基类,剩余 5 个类别作为新类进行设置;对于MSCOCO数据集则选择与VOC数据集类别重合的20个类作为新类,剩余80个类别作为基类。对于FSOD数据集则按照文献[8]的实验设置,选择与其他类别相似度较小的200类作为新类,其余800类作为基类。训练过程中,对于基类,均提供全部图片及标注信息,对于新类,则根据1/2/3/5/10-shot(VOC)或者10/30-shot(MSCOCO)等不同的实验设置选取相应的图片及标注信息。

image-20230705214910381

文献

[23 One-shot Object Detection with co-attention and co-excitation_2019]增量学习

[10 Multi-scale positive sample sample refinement for few-shot object detection] 数据增强

  • 模型结构

[19 Context-transformer: tackling object confusion for few-shot detection]

[8 Few-shot object detection with attention-RPN and multi-relation detector - IEEE 2020]

[32 Leveraging bottom- up and top-down attention for few-shot object detection 20年7月]

  • 域适应小样本目标检测

[64 Few-shot adaptive faster RCNN_IEEE2019] 首个真正意义上的域适应小样本目标检测

传统的小样本图像目标检测普遍采用俩段式Faster RCNN作为基础框架,模型相对复杂,不易部署,将来可以尝试使用YOLO作为基础框架,兼顾精度和检测速度俩个方面。让模型部署成为可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/14353.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

信道的容量和复用

信道的极限容量 当信道质量比较差时,输出信号的波形难以识别,此时出现的现象称为码间串扰“ 失真的因素有:码元传输速率,信号传输距离,噪声干扰,传输媒体质量等。 奈奎斯特准则: 理想低…

Microsoft Visual Studio 2022添加.NET Framework 4.6.2框架,然后说下.NET目标包的作用。

众所周知,Microsoft Visual Studio 2022不再支持.NET Framework 4.6以下的框架。从而导致前期使用老框架开发的某些应用无法打开(打开时提示安装框架,但又安装不成功)的情况出现。 前于如何安装.NET Framework 4.5及更早版本框架的…

MySQL面试题总结(部分)

一.介绍MySQL为什么在面试中会提及 1.为什么要在面试时MySQL会被提及? 在面试中问MySQL问题有几个主要原因: 1. 数据库管理系统的重要性:MySQL作为一种常用的关系型数据库管理系统(RDBMS),在互联网和企业应用中得到广泛使用。对数…

BUUCTF Web CyberPunk WriteUp

想直接查看payload的点这里 前言 二次注入(Second-Order Injection)是指攻击者在应用程序中注入恶意数据,然后在稍后的操作或不同的上下文中再次使用该恶意数据,导致安全漏洞。它通常发生在数据库查询、数据导出、报告生成等过程…

阿里云coluder认证训练营开班!

在这个充满机遇和挑战的时代里,云计算已经成为推动企业创新和发展的关键技术。而作为云计算人才培训领域的领军企业,摩尔狮致力于培养更多优秀的云技术人才, 所以摩尔狮联合阿里云为大家打造了免费的云计算入门课程——Clouder认证集训营&…

END-TO-END OPTIMIZED IMAGE COMPRESSION论文阅读

END-TO-END OPTIMIZED IMAGE COMPRESSION 文章目录 END-TO-END OPTIMIZED IMAGE COMPRESSION单词重要不重要 摘要: 单词 重要 image compression 图像压缩 quantizer 量化器 rate–distortion performance率失真性能 不重要 a variant of 什么什么的一个变体 …

【LangChain】Document篇

概述 这些是处理文档的核心链。它们对于总结文档、回答文档问题、从文档中提取信息等很有用。 这些链都实现了一个通用接口: class BaseCombineDocumentsChain(Chain, ABC):"""Base interface for chains combining documents."""a…

DEVICENET转ETHERCAT网关连接ethercat通讯协议详细解析

你有没有遇到过生产管理系统中,设备之间的通讯问题?两个不同协议的设备进行通讯,是不是很麻烦?今天,我们为大家介绍一款神奇的产品,能够将不同协议的设备进行连接,让现场的数据交换不再困扰&…

TiDB(7):技术内幕之存储

1 引言 数据库、操作系统和编译器并称为三大系统,可以说是整个计算机软件的基石。其中数据库更靠近应用层,是很多业务的支撑。这一领域经过了几十年的发展,不断的有新的进展。 很多人用过数据库,但是很少有人实现过一个数据库&a…

OpenCV绘制矩形

这是完整的代码: #include <opencv2/opencv.hpp>int main() {// 创建一个白色的图像cv::Mat image(500, 500, CV_8UC3, cv

2-Spring cloud之Eureka快速剔除失效服务

2-Spring cloud之Eureka快速剔除失效服务 1. eureka server端修改yml配置2. 客户端配置 1. eureka server端修改yml配置 添加如下配置&#xff1a; server:enable-self-preservation: false # 关闭自我保护eviction-interval-timer-in-ms: 3000 # 清理间隔(剔除失效服务…

cmake流程控制--循环

目录 for循环 普通方式 demo cmake3.17中添加了一种特殊的形式,可以在一次循环多个列表,其形式如下: demo 类似python语言的for循环 demo while循环 demo cmake跳出循环(break)和继续下次循环(continue) demo block()和endblock()命令定义的块内也是允许break()和c…