Shape-IoU: More Accurate Metric considering Bounding Box Shape and Scale

pdf链接:https://pan.baidu.com/s/1T534oaZWQY65SRh0QZ3bug 
提取码:yyds

作为检测定位分支的重要组成部分,边界框回归损失在目标检测任务中起着重要作用。现有的边界框回归方法通常考虑GT框和预测框之间的几何关系,通过相对位置和框形来计算损失,而忽略边界框的固有属性(如边界框的形状和尺寸)对边界框回归的影响。为了弥补现有研究的不足,本文提出了一种关注边界框自身形状和尺寸的边界框回归方法。首先,分析了边界框的回归特性,并发现边界框自身的形状和尺寸因素将对回归结果产生影响。基于上述结论提出了Shape IoU方法,该方法通过关注边界框自身的形状和尺寸来计算损失,从而使边界框回归更准确。最后,通过大量的比较实验验证了Shape-IoU方法,实验结果表明,Shape-IoU可以有效提高检测性能,并超越现有方法,在不同的检测任务中实现最先进的性能。代码:GitHub - malagoutou/Shape-IoU 论文:https://arxiv.org/pdf/2312.17663.pdf

关键词-目标检测,损失函数,边界框回归

图1: 左图、右图的回归样本只在边界框形状上有所不同,两个回归样本分别对应GT盒长边方向和短边方向的偏差是相同的,从图中可以看出GT盒形状因素导致的回归效果的差异。右图的回归效果优于左图。

1.介绍

目标检测是计算机视觉的基本任务之一,其目标是在图像中定位和识别物体。根据是否生成Anchor点,可以将方法分为基于Anchor点的方法和基于Anchor点的方法。基于Anchor点的方法包括FasterR-CNN,YOLO系列,SSD和RetinaNet。基于Anchor点的方法包括CornerNet, CenterNet和FCOS。在这些检测器中,边界框回归损失函数作为局部化分支的重要组件起着不可替代的作用。

在目标检测领域,最常用的方法包括IoU, GIoU, CIoU, SIoU等。IoU作为目标检测领域最广泛使用的损失函数,其优点在于更准确地描述了预测框和GT框之间的匹配程度。其缺点主要在于当两个框的交点为0时,无法准确描述预测框和GT框之间的位置关系。GIoU通过引入最小检测框来解决这个问题,从而提供了一个具体的改进。CIoU进一步提高了检测精度,通过在考虑预测框和GT框的中心点之间的归一化距离最小化的基础上,增加了一个形状损失项。在SIoU的工作中,提出将连接预测框中心点和GT框中心点的线的角大小作为新的损失项来考虑,以更准确地通过角的变化来判断预测框和GT框之间的匹配程度。总之,边界框回归的主要方法是通过在IoU的基础上添加新的几何约束来使回归更准确。上述方法考虑了GT框和Anchor框的距离、形状和角度对边界框回归的影响,但忽略了边界框自身的形状和尺寸也会对边界框回归产生影响的事实。为了进一步提高回归的准确性,作者分析了边界框自身形状和角度的影响,并提出了一个新的边界回归损失:Shape-IoU。

本文的主要贡献如下:

  1. 分析结果表明,在边界框回归过程中,边界框回归样本自身的形状和尺寸因素将对回归结果产生影响。
  2. 基于现有的边界框回归损失函数,考虑到边界框回归样本自身的形状和尺寸对边界框回归的影响,提出了Shape-IoU损失函数,并在微型目标检测任务中提出了Shape-dot-distance和Shape-nwd损失。
  3. 在各种检测任务上使用最先进的单阶段检测器进行了系列的比较实验,实验结果表明,本文提出的方法的检测效果优于现有方法,达到了最先进的水平。

2.相关工作

2.1 目标检测中基于IOU的度量

近年来,随着检测器的不断发展,边界框回归损失也得到了快速的发展。最初,IoU被提出用于评估边界框回归的状态,而基于IoU的DIoU, CIoU, EIoU, SIoU等方法则通过在IoU的基础上添加不同的约束来实现更好的检测。

1) IoU Metric: IoU是最流行的目标检测评估指标,定义如下:

其中,BBGT分别表示预测框和GT框。

2) GIoU Metric: 由于在边界框回归中,GT框和 Anchor 框之间没有重叠,导致IoU损失出现梯度消失的问题,因此提出了GIoU(广义IoU)来解决这个问题。其定义如下:

其中,C表示GT框和 Anchor 框之间的最小检测框。

3) DIoU Metric:由于在边界框回归中,GT框和 Anchor 框之间没有重叠,导致IoU损失出现梯度消失的问题,因此提出了GIoU(广义IoU)来解决这个问题。其定义如下:

与GIoU相比,DIoU考虑了边界框之间的距离约束,并在IoU的基础上添加了中心点归一化距离损失项,从而使得回归结果更准确。其定义如下:

在这里,和分别表示 Anchor 框的中心点和GT框的中心点,表示欧几里得距离,其中表示和之间的最小检测框的斜边长度。

CIoU进一步考虑了GT和Anchor框之间的形状相似性,通过在DIoU的基础上添加一个新的形状损失项来减少Anchor框和GT框之间的宽高比差异。其定义如下:

在这里,和分别表示GT框的宽度和高度,和分别表示Anchor框的宽度和高度。

4) EIoU Metric:EIoU根据CIoU重新定义了形状损失,并进一步通过直接减小GT框和Anchor框之间的宽高比来提高检测精度。其定义如下:

在这里,wchc分别表示最小检测框覆盖GT框和Anchor框的宽度和高度。

5) SIoU Metric:在前人研究的基础上,SIoU进一步考虑了边界框之间的角度对边界框回归的影响,旨在通过减小Anchor框和GT框之间的角度(水平或垂直方向)来加速收敛过程。其定义如下:

2.2 微小目标检测中的度量

基于IoU的度量适用于一般的目标检测任务,对于小目标检测,为了克服自身对IoU值的敏感性,提出了Dot Distance[13]和Normalized Wasserstein Distance (NWD)[14]。

1) Dot Distance:

其中D为GT盒中心点与锚框中心点之间的欧氏距离,S为目标在数据集中的平均大小。M表示图像数量,Ni表示第i张图像中标记的边界框数量,wijhij分别表示第i张图像种中第j条边界的宽度和高度。

2) 归一化高斯Wasserstein距离:

其中weight = 2,C是与数据集相关的常数。

3.方法

3.1边界框回归特征分析

图2

如图2所示,边界框回归样本A和B中的GT框的尺寸相同,而C和D中的GT框的尺寸相同。A和D中的GT框的形状相同,而B和C中的GT框的形状相同。C和D中边界框的尺寸大于A和B中边界框的尺寸。在图2a中,所有边界框回归样本的偏差相同,形状偏差为0。

图2a和图2b之间的区别在于,图2b中所有边界框回归样本的形状偏差相同,为0。

在图2a中,A和B之间的偏差相同,但是IoU值存在差异。

在图2a中,C和D之间的偏差相同,但是IoU值存在差异,与A和B相比,IoU值的差异并不显著。

在图2b中,A和B的形状偏差相同,但是IoU值存在差异。在图2b中,C和D的形状偏差相同,但是IoU值存在差异,与图2a中的A和B相比,IoU值的差异并不显著。

在图2a中,A和B之间的IoU值差异的原因在于它们的GT框有不同的形状,偏差方向分别对应长边和短边,对A来说,GT框长边方向的偏差对IoU值的影响较小,而对于B来说,短边方向的偏差对IoU值的影响较大。

与大规模边界框相比,小规模边界框对IoU值的变化更加敏感,GT框的形状对小规模边界框的IoU值有更大的影响。因为A和B的规模比C和D小,所以在形状和偏差相同时,IoU值的差异更加显著。

类似地,从形状偏差的视角分析边界框回归,可以发现回归样本中GT框的形状会影响其IoU值在回归过程中的变化。

根据以上的分析,可以得出以下结论:

  1. 假设GT框不是正方形,具有长边和短边,回归样本中的边界框形状和尺寸差异会导致在偏差和形状偏差相同时,其IoU值存在差异。
  2. 对于相同尺度的边界框回归样本,当偏差和形状偏差相同时且不为0时,边界框的形状将影响回归样本的IoU值。边界框在短边方向上的偏差和形状偏差对应的变化对IoU值的影响更为显著。
  3. 对于具有相同形状的回归样本,当回归样本的偏差和形状偏差相同时且不为0时,与较大尺度的回归样本相比,较小尺度边界框回归样本的IoU值更显著受到GT框形状的影响。

3.2 Shape-IoU

Shape-IoU的计算公式如图3所示:

图3

其中,scale是缩放因子,与数据集中目标的大小相关,wwhh分别表示水平方向和垂直方向上的权重系数,其值与GT框的形状有关。相应的边界框回归损失如下:

3.3 Shape-IoU在小目标上的应用

1) Shape-Dot Distance:将Shape-IoU的思想融入到点距离(Dot Distance)中,得到Shape-Dot Distance,其定义如下:

2) Shape-NWD: 同样地,将Shape-IoU的思想融入到归一化Normalized Wasserstein Distance(NWD)中,得到Shape-NWD,其定义如下:

4.实验

4.1 PASCAL VOC上的YOLOv8和YOLOv7

PASCAL VOC数据集是目标检测领域最流行的数据集之一,本文使用VOC2007和VOC2012的训练集和val作为包含16551张图像的训练集,使用VOC2007的测试集作为包含4952张图像的测试集。在本实验中,我们选择了最先进的单级检测器YOLOv8s和YOLOv7-tiny对VOC数据集进行对比实验,并选择SIoU作为实验的对比方法。实验结果见表1:

表1:SIoU和Shape-IoU损失函数在Yolov7和Yolov8上的表现

4.2 VisDrone2019在YOLOv8上

VisDrone2019是目标检测领域最受欢迎的无人机航拍图像数据集,与一般数据集相比,它包含了大量的小目标。本实验选择YOLOv8s作为检测器,比较方法为SIoU。实验结果如下:

表2:SIoU和Shape-IoU损耗在Yolov8上的表现

4.3 AI-TOD在YOLOv5上

AI-TOD是遥感图像数据集,与一般数据集不同的是,它包含了大量的微小目标,目标的平均大小仅为12.8像素。本实验选择YOLOv5s作为检测器,对比方法为SIoU。实验结果如表三所示:

表3:SIoU和Shape-IoU损耗在Yolov5上的表现

5.结论

在本文中总结了现有边界框回归方法的优势和劣势,指出现有研究方法主要考虑GT框和预测框之间的几何约束,而忽略了边界框自身的几何因素(如形状和尺寸)对回归结果的影响。然后,通过分析边界框的回归特性发现了边界框自身几何因素可以影响回归的规则。基于上述分析提出了Shape-IoU方法,该方法可以专注于边界框自身的形状和尺寸来计算损失,从而提高准确性。最后,在不同尺度的数据集上使用最先进的单阶段检测器进行了一系列比较实验,实验结果表明Shape-IoU优于现有方法,并实现了最先进的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/326111.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云域名优惠口令2024年更新,注册、续费和转入可用

2024年阿里云域名优惠口令,com域名续费优惠口令“com批量注册更享优惠”,cn域名续费优惠口令“cn注册多个价格更优”,cn域名注册优惠口令“互联网上的中国标识”,阿里云优惠口令是域名专属的优惠码,可用于域名注册、续…

工地云平台源码,智慧工地源码,Spring Cloud智慧工地管理系统源码

智慧工地是一种基于信息技术和大数据应用的智能化管理平台,旨在提升建筑施工现场的安全、效率和质量。通过物联网、云计算、人工智能等技术手段,智慧工地可以对施工现场的各个要素进行全面感知、实时交互和智能分析,以实现更高效、更安全、更…

外包干了4个月,技术退步明显了...

先说一下自己的情况,大专生,18年通过校招进入武汉某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落! 而我已经在一个企业干了四…

element中Tree 树形控件实现多选、展开折叠、全选全不选、父子联动、默认展开、默认选中、默认禁用、自定义节点内容、可拖拽节点、手风琴模式

目录 1.代码实现2. 效果图3. 使用到的部分属性说明4. 更多属性配置查看element官网 1.代码实现 <template><div class"TreePage"><el-checkboxv-model"menuExpand"change"handleCheckedTreeExpand($event, menu)">展开/折叠&l…

1月5日,每日信息差

第一、通用汽车2023年在华销量约210万辆&#xff0c;其中凯迪拉克品牌销量逾18.3万辆&#xff0c;别克品牌销量超51.7万辆&#xff0c;雪佛兰品牌销量约16.9万辆&#xff0c;上汽通用五菱旗下品牌合计销量逾120万辆 第二、无锡全面施行经常居住地登记户口制度。根据无锡户籍新…

docker +gitee+ jenkins +maven项目 (二)

文章目录 前言一、创建Maven项目二、常规配置1.gitee配置2.gitee仓库配置3.构建时操作4.构建后操作 总结 前言 上一篇文章介绍了Jenkins的环境配置和工具配置&#xff0c;这篇进行具体maven项目的配置 一、创建Maven项目 二、常规配置 1.gitee配置 在工具哪里配置好gitee后&…

Python(30):非对称加密算法RSA的使用(openssl生成RSA公私钥对)

Python(30)&#xff1a;非对称加密算法RSA的使用(openssl生成RSA公私钥对) 1、openssl生成RSA公私钥对 1.1、生成RSA公私钥对命令 [rootloaclhost ~]# openssl OpenSSL> genrsa -out rsa_private_key.pem 1024 Generating RSA private key, 1024 bit long modulus .. ...…

五、HTML 标题

在 HTML 文档中&#xff0c;标题很重要。 一、HTML 标题 标题&#xff08;Heading&#xff09;是通过 <h1> - <h6> 标签进行定义的。<h1> 定义最大的标题。 <h6> 定义最小的标题。 <h1>这是一个标题。</h1> <h2>这是一个标题。&l…

【Path的使用】Node.js中的使用Path模块操作文件路径

&#x1f601; 作者简介&#xff1a;一名大四的学生&#xff0c;致力学习前端开发技术 ⭐️个人主页&#xff1a;夜宵饽饽的主页 ❔ 系列专栏&#xff1a;Node.js &#x1f450;学习格言&#xff1a;成功不是终点&#xff0c;失败也并非末日&#xff0c;最重要的是继续前进的勇…

用Redis实现全局唯一ID

全局唯一ID 如果使用数据库自增ID就存在一些问题&#xff1a; id的规律性太明显受表数据量的限制 全局ID生成器&#xff0c;是一种在分布式系统下用来生成全局唯一ID的工具&#xff0c;一般要满足下列特性&#xff1a; 唯一性高可用递增性安全性高性能 为了增加ID的安全性…

探索生成式AI:自动化、问题解决与创新力

目录 自动化和效率&#xff1a;生成式AI的颠覆力量 解谜大师生成式AI&#xff1a;如何理解和解决问题 创新与创造力的启迪&#xff1a;生成式AI的无限潜能 自动化和效率&#xff1a;生成式AI的颠覆力量 1. 神奇的代码生成器&#xff1a;生成式AI可以帮助开发人员像魔术一样快…

51单片机定时/计数器相关知识点

51单片机定时/计数器相关知识点 结构组成 51单片机的定时/计数器中有两个寄存器&#xff1a; T0&#xff1a;低位&#xff1a;TL0&#xff08;字节地址8AH&#xff09;高位&#xff1a;TH0&#xff08;字节地址8CH&#xff09;T1&#xff1a;低位&#xff1a;TL1&#xff08…