Fast Rcnn-编程知识

Fast Rcnn

news/2025/3/12 10:37:04/文章来源:https://www.cnblogs.com/cork/p/18398733

物体检测Faster Rcnn系列

目标检测概论

之前我们在机器学习了解过各种分类和回归算法

目标检测需要检测物体的位置，那么把目标检测看成回归任务？好像不太合适，因为一张图像可能有多个目标

那么看做分类问题呢

看成分类问题，用的是滑动窗口

把图片划分为几个区域，然后一个个预测是不是dog ，但是速度太慢了。看成分类不太行，看成回归也不行，哪有没有一种更好的方法。

之前有一种做法是Select Search算法，先筛选出一些可能是物体的候选框

先看几种经典的目标检测算法

经典目标检测算法

R-CNN这个算法比较老了，就不做过多的介绍了。既做分类也做回归，SVMs典型的分离器，Bbox reg 典型的回归。

首先Select Search找到输入图像的候选框（2K个左右）分别进行卷积

这个过程就慢了，首先选候选框，然后用卷积提取特征，再把提取到的特征输入，svm和回归模型进行预测。14年的一个算法

R-CNN的问题，候选框没有共享卷积网络。卷积网络对输入图像大小没有限制，但是全连接层限制了神经网络，因为全连接层要保持一致，由于Select Search生成的框大小不一样，所以就用了不同的卷积网络。那么怎么样能共享卷积，共享卷积就要最终连接的全连接层上左边的权重是一致的，但是输入图像大小又不一样

而且一个检测分类一个回归，训练太慢了，检测一张图片47s

用SPP-net进行改进，输入图像大小不一样，最终得到的特征图大小也不一样

在普通的CNN机构中，输入图像的尺寸往往是固定的（比如224*224像素），通过裁剪或者放缩使输入大小一样，输出则是一个固定维数的向量。SPP Net在普通的CNN结构中加入了ROI池化层（ROI Pooling），使得网络的输入图像可以是任意尺寸的，输出则不变，同样是一个固定维数的向量。

通过金宇塔层，对特征图中每一个候选区进行划分，得到固定大小的特征向量。

对于任意大小的特征图（如B×C×H×W），Spatial Pyramid Pooling首先分别将特征图划分为若干数量的子块，然后对这些子块计算最大池化，将计算结果进行拼接即可得到固定大小的输出。

上图采用了三个分支，分别将特征图划分1×1、2×2、4×4大小的子块，然后对每个子块进行最大池化，即将不同大小的子块都转化为一个值，将池化之后的结果进行拼接即可得到一个大小固定为21维的输出。如此一来，无论输入特征图的尺寸发生如何变化，Spatial Pyramid Pooling均可将其转化为固定大小的尺寸进行输出。

经过第一代R-CNN，作者又提出第二代算法，fast R-CNN