常用目标检测算法介绍

目录

1. 常用目标检测算法

2. R-CNN 模型

3. Fast R-CNN 模型

4. Faster R-CNN 模型

5. SSD 模型


1. 常用目标检测算法

        在深度学习框架下,目标检测方法通常涉及图像定位和分类两个关键方面。有两种主要的解决方法:一种是一阶(one-stage)回归型目标检测算法,其中以YOLO系列算法为代表,它主要通过对输入图像进行定位回归和目标检测,最终输出目标的类别信息。另一种是二阶(two-stage)目标检测算法,以Faster R-CNN系列为代表,该方法分为两个步骤:目标候选框提取和目标识别,最终生成目标检测结果。

2. R-CNN 模型

        传统的目标检测方法采用滑动窗口的方式逐一扫描图像中的各个区域进行检测,然而这种方法导致了检测速度的显著下降,并可能出现因多次扫描同一目标区域而降低检测准确性,甚至导致检测失败。因此,实现有效、快速和准确的目标检测是改进目标检测算法的首要任务。

        J.R.R.Uijlings 在2012年提出的selective search方法实际上是建立在基于图像分割原理的图像分割算法基础上的。该方法首先将原始输入图像分割成多个区域,经过一系列结果筛选和分类的步骤,确定目标对象在原始图像中的位置,并收缩候选的目标区域。同时,神经网络会对这些缩小后的2000个候选区域进行逐一评估,选择匹配度最高的两个区域并将它们合并为同一集合。这个过程不断迭代,直到筛选完所有区域,最终得到图像的分割结果,用以确定目标对象的位置。这种方法大大降低了计算复杂度,为早期的深度学习目标检测算法的发展铺平了道路,尤其是R-CNN算法的应用,将初始框和卷积神经网络结合在一起,标志着目标检测领域取得了重大突破。 R-CNN 算法的流程图如图1所示。

                         ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         1 R-CNN 流程图

        CNN算法的流程首先将输入图像分割成多个不同的区域,将每个区域视为独立的子图像。随后,根据目标特征将具有相关特征的子图像进行匹配和合并,这一过程不断迭代,直到组合成更大的候选框。这种方法解决了传统目标检测算法使用滑动窗口进行重复扫描的问题,极大地提高了检测速度和准确性。实验证明,R-CNN在不同场景下表现出出色的适应性和鲁棒性。此外,该算法中的线性回归模型用于校准目标的候选框,从而减少了其他无关因素对检测结果的影响,进一步提高了目标检测的准确性。

3. Fast R-CNN 模型

        Fast R-CNN算法在处理候选区域的特征提取方面采用卷积网络,与R-CNN不同的是,Fast R-CNN利用SPP算法的原理,只需一次特征提取,从而解决了繁琐的计算步骤和冗余计算问题。Fast R-CNN模型如下图2所示:

                                                        图 2 Fast R-CNN 模型 

        Fast R-CNN使用卷积神经网络模型来提取图像特征,并在筛选和合并后生成各类别的多个候选框。然后,所有这些目标候选框被传递到池化层,以进行特征筛选,最终经过全连接层输出分类结果。与R-CNN不同,Fast R-CNN的RoI(感兴趣区域)池化层是一个简化的SPP(空间金字塔池化)层。卷积后得到的特征图上的每个像素点实际上与原始图像的相应区域一一对应。对于图像中的不同候选区域,我们可以通过确定其左上角和右下角的坐标位置,将其映射到特征图上,以获取与该候选区域相关的特征。

        Fast R-CNN相较于R-CNN有效缩短了训练时间,实现了更加统一和规范化的网络训练,提高了训练速度和准确性,整体性能优于R-CNN。实验结果分析表明,Fast R-CNN在不同光照条件下表现出良好的识别准确性和鲁棒性。然而,Fast R-CNN仍然使用Selective Search方法来提取候选区域的特征,这会导致较长的计算时间。例如,生成整个框架需要大约两秒的时间,这对于需要实时性目标检测的应用,如道路检测或空中飞行物检测,可能不是最佳选择。

4. Faster R-CNN 模型

        尽管Fast R-CNN模型在目标检测性能方面取得显著进展,但其存在选择性搜索问题,这导致目标检测效率较低,需要花费时间在许多目标特征不明显的区域上,可能出现遗漏和误检。此外,Fast R-CNN需要在训练过程中不断调整参数以提高性能,这些限制了其实际应用。因此,Faster R-CNN方法由任少卿等人提出来解决这些问题。

        Faster R-CNN算法在Fast R-CNN算法的基础上创新性地引入了区域生成网络(RPN),以替代传统的选择性搜索方法,从而提高了神经网络的特征训练效率。Faster R-CNN采用了端到端的两阶段方法,充分利用了卷积神经网络的共享计算,从而在一定程度上提高了目标特征的训练效率,大大提升了整个算法模型的检测效率。该算法的结构如图3所示:

         ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​            3 Faster R-CNN 算法结构

        由于特征图经过池化层后的尺寸大幅减小,RPN网络在特征图上的计算量和移动次数都大幅降低。此外,RPN网络与RoI Pooling模块共享了基础网络,这简化了计算过程中的各种参数,减少了不必要的计算,因此网络的计算速度有了显著提升。由于RPN网络能够在高维空间中生成候选框,因此网络能够获得更高维度的特征信息,使生成的候选区域更接近真实值,从而提高了Faster R-CNN算法的检测效率。RPN的结构如下图4所示:

   图 4 RPN 结构

5. SSD 模型

        2016年,Wei Liu等研究人员提出了一种名为SSD的目标检测算法,通常用于检测目标物体。SSD算法对VGG16进行了改进,将网络的FC6和FC7层替换成两个卷积层,并在其后添加了三个逐渐减小尺寸的卷积层和一个平均池化层。最终,该算法将特征提取的结果传递到损失层。SSD算法利用多个卷积层的特征图进行偏移和置信度的预测,从而增加了检测过程中的语义信息。这使得它在不同尺度的物体检测方面表现出良好的效果。下图显示了该算法的网络结构(如图5所示)。

         ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​           5 SSD 网络结构

        SSD算法的网络结构对VGG进行了改进,它引入了辅助网络层,用于融合多尺度卷积网络的预测结果。采用了与默认边界框(Anchor)类似的方法,对不同尺寸的目标对象进行处理,以提高训练和预测的准确性。SSD算法提供了一个完整的端到端训练网络,相比Faster R-CNN模型,更便于数据传输和网络计算。此外,对于尺寸较小的输入图像,SSD算法在目标检测方面表现更出色。然而,它在小目标和相邻目标的检测上存在一些不足,甚至在复杂背景下的目标检测结果可能不如人意。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/681044.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FPGA -手写异步FIFO

一,FIFO原理 FIFO(First In First Out)是一种先进先出的数据缓存器,没有外部读写地址线,使用起来非常简单,只能顺序写入数据,顺序的读出数据,其数据地址由内部读写指针自动加1完成&a…

Netty 实现dubbo rpc

一、RPC 的基本介绍 RPC (Remote Procedure Call) 远程过程调用,是一个计算机通信协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序,而程序员无需额外的为这个交互编程。也就是说可以达到两个或者多个应用程序部署在不同的服务器上&…

YOLOv5入门 | 重要性能衡量指标、训练结果评价及分析及影响mAP的因素

在深度学习目标检测领域,YOLOv5成为了备受关注的模型之一。训练结束后,对训练结果的仔细分析至关重要。这就涉及到了重要性能的衡量指标。本文将手把手教学如何进行YOLOv5的结果分析和重要性能指标的参考,以帮助您更好地学习深度学习目标检测…

操作系统原理与实验——实验十分段存储管理

实验指南 运行环境: Dev c 算法思想: 本实验是模拟分段存储管理,系统需要建立两张分区表,分别是已分配和未分配分区表,首先根据装入作业的大小判断是否小于空闲分区的总容量,若满足,则对该作业继…

自注意力架构大成者_Transformer(Pytorch 17)

1 模型简介 在上节比较了 卷积神经网络(CNN)、循环神经网络(RNN)和 自注意力(self‐attention)。值得注意的是, 自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此,使…

数字工厂管理系统如何实现生产过程透明化

随着科技的飞速发展,数字化转型已成为制造业不可逆转的趋势。数字工厂管理系统作为实现生产自动化、智能化的重要工具,其在提升生产效率、降低运营成本、优化资源配置等方面的作用日益凸显。其中,实现生产过程的透明化是数字工厂管理系统的重…

Netty详解,含EventLoop、Channel、Handler、Pipeline和ByteBuf等组件详解(长文)

前言:本文是博主学习视频后所整理的笔记,用于回顾。 Netty中的工作原理:首先使用 Bootstrap/ServerBootstrap 启动器启动,通过使用包含了多个EventLoop 的 EventLoopGroup 去处理多组 Channel 的事件循环。而每个 Channel 是一个产…

Java设计模式 _结构型模式_外观模式

一、外观模式 1、外观模式 外观模式(Facade Pattern)是一种结构型模式。主要特点为隐藏系统的复杂性,并向客户端提供了一个客户端可以访问系统的接口。这有助于降低系统的复杂性,提高可维护性。当客户端与多个子系统之间存在大量…

46. UE5 RPG 增加角色受击反馈

在前面的文章中,我们实现了对敌人的属性的初始化,现在敌人也拥有的自己的属性值,技能击中敌人后,也能够实现血量的减少。 现在还需要的就是在技能击中敌人后,需要敌人进行一些击中反馈,比如敌人被技能击中后…

社交新时代:Facebook如何塑造我们的互动方式

在当今社交媒体充斥着人们日常生活的情况下,Facebook作为影响力最大的社交平台之一,已经深深地影响了我们的互动方式和社交行为。从初期的大学校园社交网络发展到如今的全球社交巨头,Facebook已经成为许多人日常生活中不可或缺的组成部分。本…

学习大数据,所需更要的shell基础(2)

文章目录 read读取控制台输入函数系统函数bashnamedirname 自定义函数Shell工具(重点)cutawk 正则表达式入门常规匹配常用特殊字符 read读取控制台输入 1)基本语法 read (选项) (参数) ①选项: -p:指定读取值时的提示…

补强板大全

一.名词介绍: 补强板又叫Stiffeners,加强板,增强板,支撑板,保强板,裙托板,撑托板,托强板,加强筋。补强板主要用在建筑,石油管道,机工设…