论文阅读<CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather.....>

论文链接:https://arxiv.org/pdf/2309.08152.pdfhttps://arxiv.org/pdf/2206.01381.pdfhttps://arxiv.org/pdf/2309.08152.pdf

代码链接:https://github.com/DiffPrompter/diff-prompter

目前没有完整代码放出。

        恶劣天气下的目标检测主要有以下三种解决方案:1)使用预处理(pre-processing),例如image desnowing/deraining/dehazing,尽管已经有大量的方法去完成这个工作,但是会丢失图像细节。2)使用双分支网络联合学习图像恢复和目标检测,这两个网络共享特征提取层,但是在训练中很难平衡这两项任务。3)使用无监督域适应(Domain Adaptation)来对齐干净图像和恶劣天气下拍摄的特征,但是这样有利于检测的潜在信息可能被忽略。

Abstract 

       

Motivation

        是否能够通过建立真实的雪天OD数据集和开发特征聚合模块(feature aggeregation module)来学习潜在信息的协同作用,增强尖端Object Detection网络在雪天条件下的能力。

Real-World Snowy Object Detection Dataset

A Dataset Introduction

        建立了用于雪中目标检测的真实世界的数据集RSOD(real-world snow object detection dataset),包含2100张不同场景的图像,主要是雪中城市和交通场景,实例分布如下图所示。把雪天分为四个难度等级:easy, normal, difficult, particularly difficult。通过计算SCR值和人工观测进行等级划分,1~600为easy,601~1600为normal,1601~2000为difficult,2001~2100为particularly difficult。

B Unsupervised Training for SCR Calculation

        SCR(snow coverage rate)用来衡量雪覆盖的面积,用下边的公式进行计算。A_{snow}A_{bbox}分别表示雪和bounding box的面积。直接对图片标注可以计算出SCR值,但是这样非常耗费时间。这里采用无监督的训练策略来训练一个响应雪像素并抑制不是雪的像素的CNN。主要通过下边三个策略来实现。

SCR=A_{snow}/A_{bbox}

1、用大雪覆盖大部分图像区域的图像训练CNN模型。对应的ground truth是输入大小相同且几乎所有像素都等于1的map。该步骤将引导模型映射为每个值都等于1的map,模型中的卷积核将通过反向传播对积雪特征进行编码。

2、设计了一个激活函数Peak Act抑制非雪元素。如图2 ( d )所示,我们称激活函数为P eak Act。由于我们用于训练的图像中积雪覆盖面积最大,卷积核自然会对积雪像素做出响应,而对非积雪像素进行抑制。Peak Act表达式如下,设计时遵循以下三个原则:1)是一个峰值函数,其中峰值为( 1 , 1)。因为我们的基本真值是一个所有元素都等于1的矩阵,所以训练过程会引导输出结果趋向于1。并且峰值将有效面积限制在很小的带宽内,如图2 ( d )所示。2)零映射为零。如果一个零映射到一个非零值,就会有一些懒惰的卷积核,所有的权重都等于0,将所有的像素平滑到一个非零值。因此,后面层的特征很容易被等同于真实值,从而导致训练的失败。3)为凹函数,确保特征值在经过激活函数后不会趋近于1。特征只有通过优化才能趋近于1。

f(x)= \left\{\begin{matrix} 0.2x& x<0\\ x^{2}& 0\leq x<1\\ (x-2)^{2}&1\leq x <2 \\ -0.2(x-2)&x\geqslant 2 \end{matrix}\right.

3、CNN的最后一层是Max-out function。它将通道维度中每个像素的最大特征值输出,形成单通道特征图O和Ground Truth去计算损失。由于Peak Act的上限为1,网络的输出将始终小于或等于1。Max - out层将鼓励不同的通道响应不同的特征,从而导致高度特定的内核优化。P是网络参数,α设置为1,β设置为0.0001。损失函数的第一项是引导优化方向,第二项是L1正则化,用于得到稀疏特征。

Loss = \alpha\frac{1}{W*H}\sum_{i}\sum_{j}(GT_{ij}-O_{ij})+\beta||P||_{1}

        CNN模型如图3所示。在训练和测试(即,计算SCR)的过程中,我们使用了不同的头。该模型将输入图像分解为32个通道,并对不同通道的特征图进行二值化和可视化。如图2 ( b )和图2 ( c )所示,Feature Map - 31对积雪的响应非常特异,而Feature Map - 11对边缘的响应非常特异。响应积雪的特征图可以通过统计二值化图中的光照像素来计算SCR。我们还对不同通道的3D表面进行了可视化,如图2 ( e )和图2 ( f )所示,它清楚地显示了通道- 31对积雪区域的响应和对非积雪区域的抑制。CNN和Peak Act的设计,使得能够计算SCR,从而对雪天图像进行分级。

Method

        在MSCOCO训练和的模型,在RSOD上进行检测,由于域偏移(domain shift)的问题,性能严重退化。除此之外,我们还发现一些大物体在雪天中更容易被遗漏,这可能违背常识,因为许多研究表明在大模型上性能很好。基于这一观察,对yolov5s做了小的调整,。通过设置检测置信度阈值为0.01,我们惊讶地发现YOLOv5s已经检测出了雪天图像(类似的现象也存在于许多其他的雪天图像中)中的那些大目标,但是置信度过低,无法通过非极大值抑制( NMS ),导致预测错误,如图10 ( b )。原因是大雪会改变物体的轮廓、纹理和表面,使低层视觉信息缺失和扭曲

        YOLOv5s使用的是Feature Pyramid 和Path Aggregation Network(FPN+PANet)作为特征融合模块,特征在进入检测头之前经过了top-down和bottom-up。而在雪天图像中,低层视觉信息被遗漏或者失真,这种无意义的信息会随着网络进行传播。在深度网络中,深层网络的感受野比较大,因此,更深层的网络可能会考虑到更多的无意义特征。可能会稀释有意义的特征,干扰网络从被雪覆盖的物体中提取有意义的特征,降低预测的置信度。

A Cross Fusion

        为了解决上边提出的问题,这篇论文提出了一个新的交叉融合模块(cross fusion,CF)能够直接集成来自不同层次的特征。该模块的目的是缩短传播路径,而不是使模型变得更复杂或更深入。如图4所示,把不同尺度的输入特征同时送入CF层,促使最后一个阶段直接到达低层特征。CF层还允许不同的输入输出分支,这使得CF成为一个即插即用的模块,以适应不同的模型。

        和FPN+PANet相比,CF可以在低层特征和高层特征之间提供更短的路径,CF的特征融合可以表示为。f_{CSP}是CSP模块,\bigoplus是逐像素相加,O_{1}是CF的结果。CF的特征融合发生在后处理组件之前,而" FPN + PANet "的特征融合只能按照自顶向下和自底向上的顺序依次进行

O_{1}=f_{CSP}(Conv_{11}(X_{1})\bigoplus Conv_{12}(X_{2}) ) \bigoplus Conv_{13}(Resize(X_{3}))

B CF-YOLO

        把YOLOV5的neck部分替换为如图5所示的结构,此外,CF - YOLO的结构非常灵活。通过改变CF ( n )的个数、出入阶段数( In和Out)和g Oct Conv ( K )的核大小,可以很容易地对其进行修改。在这项工作中,我们的CF - YOLO堆叠了两层CF ( n = 2 )。CF-YOLO ( K = 1 )、CF - YOLO ( K = 3 )分别表示CF的核尺寸等于1和3

Experiment

A Comparison of different activation functions

         为了验证提出的Peak Act的有效性,我们将一般的激活函数Sigmoid,ReLU [ 34 ]和Leaky Relu激活函数[ 35 ]与Peak Act进行了比较。并选取最佳的特征图可视化结果进行对比。可以看到只有Peak Act能够保存模型把积雪特征从非积雪特征中分离出来。

B Performance of Detectors on RSOD

        CF - YOLO是在PyTorch中实现的。所有训练设置与YOLOv5s (批大小= 32 ,动量为0.937 ,权重衰减为0.0005的SGD优化器,学习率= 0.01)相同。我们将CF - YOLO与不同的SOTA方法进行了比较,包括YOLOv5s,SSD300 [ 20 ],EfficientDet D0和D1。此外,将RSOD分为训练集、验证集和测试集,分别包含1701、189和210张图像。为了平衡每个子集的难度,图像被随机分配到各个子集。为了验证RSOD的4个难度等级,我们分别在这4个难度等级和整个数据集上进行测试。

        为了验证RSOD的4个难度等级,我们分别在这4个难度等级和整个数据集上进行测试。为了公平比较,所有检测器仅使用MSCOCO进行训练,结果在表1中显示。与YOLOv5s相比,CF - YOLO具有更高的检测结果置信度,能够减少漏检和误检。原因在于提出的CF块使得不同层次的特征能够直接交互,从而可以恢复稀释在高层特征中的有意义的信息。

        为了比较不同方法在RSOD数据集上训练后的性能,使用MSCOCO预训练的权重在RSOD上训练了20个epoch。  我们只训练了20个历元的网络,这就足够了,因为RSOD比MSCOCO小得多。如表2所示,在验证集和测试集上,CF - YOLO仍然优于SOTAs,这证实了CF - YOLO在降雪天气中的优势。

C Performance of Detectors on MSCOCO

        为了进一步考察CFYOLO的泛化能力,我们在MSCOCO上对CF - YOLO的两个版本( K = 1或3)从头训练300历元。表3展示了CF - YOLO和SOTAs在MSCOCO上的比较。可以看到,核大小为K = 1或K = 3的CF - YOLO取得了与YOLOv5s相近的结果。这意味着我们的CF - YOLO在降雪天气下表现良好,而在正常天气下仍然具有竞争力。

Conclusion

        不利的天气往往会给为自动化系统供电的传感器造成能见度问题。尽管前沿的目标检测器在正常天气下捕获的数据集上取得了令人鼓舞的结果,但从恶劣天气(例如,降雪天气)中捕获的低质量图像中检测目标仍然非平凡的。它们往往忽略了对检测有益的潜在信息。通过开发一个采用无监督的训练策略,我们建立了一个高质量的用于目标检测的真实世界雪花数据集( RSOD )。考虑到基于CNN的检测器在RSOD上的退化,我们提出了交叉融合YOLO ( CF-YOLO ):一种轻量但有效的目标检测器。结果表明,我们的CF - YOLO不仅在RSOD上取得了优异的性能,而且是一个有竞争力的轻量级通用检测器,这将为户外视觉系统提供便利。                

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/299696.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【【IIC模块Verilog实现---用IIC协议从FPGA端读取E2PROM】】

IIC模块Verilog实现–用IIC协议从FPGA端读取E2PROM 下面是 design 设计 I2C_dri.v module IIC_CONTROL #(parameter SLAVE_ADDR 7b1010000 , // E2PROM 从机地址parameter CLK_FREQ 26d50_000_000 , // 50MHz 的时钟频率parameter …

关于MULTI#STORM活动利用远程访问木马瞄准印度和美国的动态情报

一、基本内容 于2023年6月22日&#xff0c;一款代号为MULTI#STORM的新网络钓鱼活动将目标瞄准了印度和美国&#xff0c;利用JavaScript文件在受感染的系统上传播远程访问木马。 二、相关发声情况 Securonix的研究人员Den luzvyk、Tim Peck和Oleg Kolesnikov发表声明称&#x…

民富购:塑造数字时代下的电商革新与社会责任典范

在数字经济时代,电子商务已经成为建立市场关系、创新产业和服务业态、促进经济增长的重要途径和手段。特别是在中国,新型电子商务的迅猛发展已经改变了生产和生活的方方面面,不仅催生了众多新业态,还通过“互联网”战略让许多传统产业和服务焕发了新的生机。民富购,作为扬羊(广…

了解OAuth 2.0以及社交登录认证授权流程

1.前言 目前在写一个电商项目&#xff0c;可以通过手机号进行注册登录&#xff0c;为了方便用户使用本平台的系统&#xff0c;引入社交登录功能&#xff0c;这里使用的是gittee。 2.OAuth 2.0介绍 当谈到网络安全和身份验证时&#xff0c;OAuth 2.0&#xff08;开放授权 2.0&a…

8.21 PowerBI系列之DAX函数专题-帕累托分析

需求 实现 1 按商品小类累积 var rollup_sales calculate(//计算当前累计销售额 [销售额], filter(allselected(order_2[产品小类]),sum(order_2[订单金额])<[销售额]) ) //按小类累积金额,filter内的销售额为选中的各小类的销售额 //金额从大到小累积&#xff0c;用&l…

《我在北京送快递》平凡隽永的时刻,对人生更具意义

《我在北京送快递》平凡隽永的时刻&#xff0c;对人生更具意义 胡安焉 文章目录 《我在北京送快递》平凡隽永的时刻&#xff0c;对人生更具意义[toc]摘录感悟 摘录 转“没有期限的承诺无疑就是委婉的拒绝” 转书友&#xff1a;亨利福特说&#xff0c;我聘的是一双手&#xff0…

C语言操作符if语句好习惯 详解分析操作符(详解4)

各位少年&#xff1a; 前言 还记得我们上一章讲过一个比较抽象的代码&#xff0c;它要比较两次都是真的情况下才能打印&#xff0c;那么很显然这样写代码是有弊端的&#xff1f;哪我们C语言之父丹尼斯.里奇&#xff0c;先介绍一下上次拉掉了if语句的好习惯 好再分享一些操作符…

Autosar CAN开发02(入门Autosar)

Autosar架构 想起当时刚毕业进入公司之后&#xff0c;我的岗位是Autosar Bsw软件工程师。 看着这个什么“Autosar”&#xff0c;真的是一脸懵。 后来才知道&#xff0c;按照我的理解&#xff1a;Autosar就是一个软件架构。它分为ASW和BSW。ASW负责实现应用层功能&#xff08…

Linux构建NFS远程共享存储和ftp配置

NFS架构 NFS介绍 文件系统级别共享&#xff08;是NAS存储&#xff09; --------- 已经做好了格式化&#xff0c;可以直接用。 速度慢比如&#xff1a;nfs&#xff0c;samba NFS&#xff1a;Network File System 网络文件系统&#xff0c;NFS 和其他文件系统一样,是在 Linux …

H266/VVC帧内预测编码技术概述

预测编码技术 预测编码&#xff08;Prediction Coding&#xff09;是指利用已编码的一个或多个样本值&#xff0c;根据某种模型或方法&#xff0c;对当前的样本值进行预测&#xff0c;并对样本真实值和预测值之间的差值进行编码。 视频中的每个像素看成一个信源符号&#xff…

OpenEuler安装内网穿透工具实现ssh连接openEuler系统

文章目录 1. 本地SSH连接测试2. openEuler安装Cpolar3. 配置 SSH公网地址4. 公网远程SSH连接5. 固定连接SSH公网地址6. SSH固定地址连接测试 本文主要介绍在openEuler中安装Cpolar内网穿透工具实现远程也可以ssh 连接openEuler系统使用. 欧拉操作系统(openEuler, 简称“欧拉”…

详解Java反射机制reflect(一学就会,通俗易懂)

1.定义 #2. 获取Class对象的三种方式 sout(c1)结果为class com.itheima.d2_reflect.TestClass 获取到了Class对象就相当于获取到了该类 2.获取类的构造器 3.获取全部构造器对象 2.根据参数类型获取构造器对象 类型后必须加.class 3.构造器对象调用构造器方法 4.暴力访问 4.获…