FPN网络

FPN(Feature Pyramid Network)是一种用于目标检测和语义分割等计算机视觉任务的网络结构。它旨在解决不同尺度下的特征信息不足的问题,提高模型对小目标和远距离目标的检测能力。在目标检测任务中,由于目标的尺度和形状各异,同一个目标可能在不同尺度下具有不同的外观。因此,单一尺度下的特征可能无法充分捕捉到不同尺度目标的特征信息,从而影响检测的准确性和鲁棒性。

FPN主要解决的问题包括:

1. **多尺度信息融合:** FPN通过构建特征金字塔,将来自不同尺度的特征信息进行融合,从而获取更全面、更丰富的多尺度特征表示。

2. **解决小目标检测困难:** 对于小目标,由于其尺寸较小,常常会在高层特征中失去信息,导致难以准确检测。FPN通过自顶向下的特征传播过程,将高层特征与底层特征相结合,提供更丰富的语义信息,有助于提高对小目标的检测能力。

3. **减少计算成本:** FPN在特征金字塔的构建中使用了共享的特征提取网络,避免了重复计算,从而降低了计算成本。

综上所述,FPN通过构建特征金字塔并结合自顶向下的特征传播机制,有效地解决了目标检测中的多尺度问题,提高了模型对不同尺度目标的检测性能。

FPN的主要思想是利用多尺度特征金字塔来融合不同层级的特征信息,以获取更丰富的语义信息。它包含两个主要组件:
1. **特征金字塔网络(Feature Pyramid):** FPN通过自顶向下和自底向上的方式构建特征金字塔,从不同层级的特征图中提取多尺度的语义信息。通常,特征金字塔由底层到顶层的特征图组成,每个特征图都对应不同的尺度。
2. **横向连接(Lateral Connection):** FPN通过横向连接将低层级的高分辨率特征图与高层级的低分辨率特征图相结合,以获取更丰富的语义信息。这样可以使得网络在不同尺度下都能够获得高质量的特征表示。

       通过利用FPN,可以有效地提高目标检测和语义分割模型在多尺度场景下的性能。FPN被广泛应用于一系列计算机视觉任务中,包括目标检测、语义分割、实例分割等。

FPN的基本步骤 

FPN(Feature Pyramid Network)的基本步骤如下:

1. **构建特征金字塔:** 首先,从底层到顶层构建特征金字塔,每一层都对应不同尺度的特征图。这可以通过在卷积神经网络(CNN)中添加额外的层级或通过下采样(如池化或步幅卷积)来实现。

2. **自底向上路径(Bottom-up Pathway):** 在构建特征金字塔时,从底层到顶层逐步提取特征。通常,这些特征具有不同的分辨率和语义级别。

3. **自顶向下路径(Top-down Pathway):** 在自底向上路径之后,建立自顶向下的路径,通过上采样或插值操作将较低层级的特征图上采样到与较高层级特征图相同的尺寸。

4. **横向连接(Lateral Connection):** 自底向上和自顶向下路径相结合,通过横向连接将来自底层的高分辨率特征图与来自顶层的低分辨率特征图相结合。这些横向连接可以通过简单的1x1卷积操作来实现。

5. **特征融合(Feature Fusion):** 将来自不同层级的特征图融合在一起,以产生最终的多尺度特征图。通常,这可以通过简单地对特征图进行逐元素相加或级联来实现。

6. **应用于任务:** 最终的多尺度特征图可以被应用于目标检测、语义分割等计算机视觉任务中,以提高模型在不同尺度下的性能。

通过这些步骤,FPN能够有效地提取多尺度的语义信息,从而提高模型在多尺度场景下的性能。

金字塔框架介绍 

图1。 (a) 使用图像金字塔构建特征金字塔。特征在每个图像尺度上独立计算,这种方法速度较慢。 (b) 最近的检测系统选择仅使用单尺度特征以实现更快的检测。 (c) 另一种方法是重用由ConvNet计算的金字塔特征层次结构,就像它是一个具有特征化的图像金字塔一样。 (d) 我们提出的特征金字塔网络(FPN)既像(b)和(c)一样快速,又更精确。在这个图中,特征图由蓝色轮廓表示,较粗的轮廓表示语义上更强的特征。

如上图1所示,识别不同尺度的物体是计算机视觉的一个基本挑战,论文列举了几种不同的实现方式。

(a)是图像金字塔,在传统图像处理算法中用得比较多,就是将图片resize到不同的大小,然后分别得到对应大小的特征,然后进行预测。这种方法虽然可以一定程度上解决多尺度的问题,但是很明显,带来的计算量也非常大。

(b) 使用单个feature map进行检测,这种结构在17年的时候是很多人在使用的结构,比如YOLOv1、YOLOv2、Faster R-CNN中使用的就是这种架构。直接使用这种架构导致预测层的特征尺度比较单一,对小目标检测效果比较差

(c) 像SSD(Single Shot Detector)采用这种多尺度特征融合的方式,没有上采样过程,即从网络不同层抽取不同尺度的特征做预测,这种方式不会增加额外的计算量,但是不同的层次的特征图有巨大的语义差距,高分辨率的特征图只有低级特征,损害了表示能力,不利于目标识别。作者认为SSD算法中没有用到足够低层的特征(在SSD中,最低层的特征是VGG网络的conv4_3),而在作者看来足够低层的特征对于检测小物体是很有帮助的。

(d) 经典FPN架构,通过自顶向下和自底向上的路径来构建特征金字塔自底向上的路径是指从低层特征图开始,通过下采样操作逐渐减小特征图的分辨率,同时增加其语义信息。自顶向下的路径是指从顶层特征图开始,通过上采样操作逐渐增加特征图的分辨率。还引入了横向连接,用于在自顶向下自底向上的路径之间传递信息。

 图3展示了横向连接和自顶向下路径的构建模块,通过加法进行合并。

① 自底向上:

自底向上的过程通常是指从网络的低层级特征开始逐步提取特征,直到达到网络的顶层。这个过程通常发生在卷积神经网络(Convolutional Neural Network,CNN)中,用于图像处理和计算机视觉任务。

在自底向上的过程中,每个网络层都会逐步提取出越来越抽象和高级别的特征信息。这些特征信息的提取是通过卷积操作和池化操作等方式来实现的。在网络的早期层级,提取的特征通常与图像的低层次结构相关,例如边缘和纹理等。随着网络层级的增加,提取的特征则变得更加抽象和语义化,例如对象的形状、纹理、和特定部位等。

自底向上的过程在构建特征金字塔(Feature Pyramid)和构建特征融合网络(如FPN)等任务中经常被使用。通过利用这种自底向上的特征提取方式,可以获得多尺度的特征表示,从而提高模型在目标检测、语义分割等任务中的性能。

② 自顶向下:

自顶向下的过程通常是指从网络的顶层开始向下传播信息,逐步细化和调整特征以适应任务的需要。这个过程通常发生在层次性模型或者金字塔结构中,例如特征金字塔网络(Feature Pyramid Network,FPN)等。

在自顶向下的过程中,最初的输入是来自网络的高层特征,这些特征通常具有较高的语义信息和较低的分辨率。然后,这些高层特征通过上采样或者插值操作被扩展到与底层特征相同的尺寸,并通过横向连接与底层特征进行融合。这个过程可以逐步地提高特征的分辨率和精细度,从而增强特征的语义信息并改善模型在任务中的性能。

自顶向下的过程通常用于构建特征金字塔网络(FPN)等结构,在目标检测和语义分割等任务中取得了广泛的应用。通过利用自顶向下的特征传播方式,可以有效地提取多尺度的语义信息,并帮助模型更好地理解图像内容。

③ 横向连接:

采用1×1的卷积核进行连接(减少特征图数量)。

部分参考自:

 目标检测之FPN网络详解-CSDN博客

FPN特征金字塔,插值--学习笔记 - 知乎 

https://www.cnblogs.com/harrymore/p/17452884.html 

重读FPN(Feature Pyramid Network) - 知乎 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/601698.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人民大学:揭示大语言模型事实召回的关键机制

引言:大语言模型事实召回机制探索 该论文深入研究了基于Transformer的语言模型在零射击和少射击场景下的事实记忆任务机制。模型通过任务特定的注意力头部从语境中提取主题实体,并通过多层感知机回忆所需答案。作者提出了一种新的分析方法,可…

CICD流水线 发布应用到docker镜像仓库

准备工作 1.先注册免费的镜像仓库 复制链接: https://cr.console.aliyun.com/cn-beijing/instances 实施 1. 新建流水线,选择模板 2.添加流水线源,及是你的代码仓库, 选择对应分支. 3.代码检查以及单元测试,这个步骤可以不用动它. 4. …

【随笔】Git 基础篇 -- 分支与合并 git merge(九)

💌 所属专栏:【Git】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! 💖 欢迎大…

7款公司电脑监控软件

7款公司电脑监控软件 研究证明,人们在家办公的效率比在办公室办公的效率低一半,其中原因是缺少监督,即便在公司办公,还存在员工偷闲的时刻,比如聊天、浏览无关网站、看剧、炒股等,企业想提高员工的工作效率…

xilinx AXI CAN驱动开发

CAN收发方案有很多,常见的解决方案通过是采用CAN收发芯片,例如最常用的SJA1000,xilinx直接将CAN协议栈用纯逻辑实现,AXI CAN是其中一种; 通过这种方式硬件上只需外接一个PHY芯片即可 上图加了一个电平转换芯片 软件设计方面&…

vivado 配置存储器器件编程2

为双 QSPI (x8) 器件创建配置存储器文件 您可使用 write_cfgmem Tcl 命令来为双 QSPI (x8) 器件生成 .mcs 镜像。此命令会将配置数据自动拆分为 2 个独立 的 .mcs 文件。 注释 : 为 SPIx8 生成 .mcs 时指定的大小即为这 2 个四通道闪存器件的总大小。…

电脑远程控制esp32上的LED

1、思路整理 首先esp32需要连接上wifi 然后创建udp socket 接受udp数据 最后解析数据,控制LED 2、micropython代码实现 import network from socket import * from machine import Pin p2Pin(2,Pin.OUT)def do_connect(): #连接wifi wlan network.WLAN(network.…

免费云服务器汇总,最长永久免费使用

随着云计算技术的快速发展,越来越多的企业和个人开始将业务迁移到云端。云服务器作为云计算的重要组成部分,以其灵活、高效、可扩展等特点受到广泛关注。然而,许多人在初次接触云服务器时,可能会对高昂的价格望而却步。为了帮助大…

Binder通信模型

Binder是Android最主要的进程间通信方式,下面简单认识一下它的通信模型,如下图所示 服务管理进程启动时会变成上下文管理者,在驱动层创建一个全局的binder_node对象binder_context_mgr_node记录进程信息,BpServiceManager中BpBind…

SpringBoot学习笔记-S2

1. SpringBoot中的常见注解 RequestBody:使SpringMVC框架可自动读取请求体里面的JSON格式的数据,转换成map类型的集合对象RestController:开发RESTful API 时使用,等价于ResponseBody Controller。RestController和Controller的…

FaceForensics++数据库下载(一步步解析过程)

FaceForensics数据库下载(超详细版教程) 相信很多做deepfake相关研究的朋友,在对模型进行测试或者对潜前人的研究进行复现时,都需要下载一系列数据库并进行预处理等操作,而FaceForensics数据库是一个由数千个使用不同…

数据库相关知识总结

一、数据库三级模式 三个抽象层次: 1. 视图层:最高层次的抽象,描述整个数据库的某个部分的数据 2. 逻辑层:描述数据库中存储的数据以及这些数据存在的关联 3. 物理层:最低层次的抽象,描述数据在存储器中时如…