Yolo系列算法-理论部分-YOLOv1

0. 紧接上一篇目标检测算法的介绍

基于深度学习的目标检测算法概述-CSDN博客

本篇YOLO算法系列,参考优秀作者-AI菌,文章链接:YOLO系列算法精讲:从yolov1至yolov8的进阶之路(2万字超全整理)_yolov9-CSDN博客

1. YOLOv1
1.1 概述

        YOLOv1算法出现之前,目标检测领域以R-CNN系列算法(Two-Stage)担任主力军,但是因为是Two-Stage网络结构,在实时性上一直很差。

        2016年Joseph等人提出了首个One-Stage的目标检测网络,它的检测速度非常快,每秒45帧图像,这就是大名鼎鼎的You Only Look Once。

        YOLO的核心思想就是将目标检测问题转变成回归问题,以前都是分类问题,利用整张图作为网络的输入,仅仅经过一个神经网络,得到bounding box(边界框)的位置及其所属的类别。

图1 YOLOv1网络图

        网络结构简洁清晰,端到端的网络结构:

  1. 网络输入:448×448×3的彩色图片;
  2. 中间层:由若干个卷积层和最大池化层组成,用于提取图片的抽象特征;
  3. 全连接层:由两个全连接层组成,用来预测目标的位置和类别概率值;
  4. 网络输出:7×7×30的预测结果。
1.2 具体实现
1.2.1 检测策略
  1. 核心思想是“分而治之”,将一张图片平均分成7×7个网格中,每个网格分别负责预测中心点落在该网格内的目标;
  2. Faster R-CNN网络中的RPN网络需要额外再训练,在YOLO中7×7=49个网格就是目标的感兴趣区域;
1.2.2 算法流程
  1. 将输入图像分成S×S个网格(grid cell),如果某个object的中心落在这个网格中,则这个网格就负责预测这个object
  2. 每个网格预测B个bounding box,每个bounding box要预测(x,y,w,h)和confidence共5个值;
  3. 每个网格还要预测一个类别信息,记为C类;
  4. 总的来说,S×S个网格,每一个网格要预测B个bounding box,还要预测C个类。网络输出就是S×S×(5×B+C)的张量。
1.2.3 目标损失函数     
  1. 损失函数由三部分组成:坐标预测损失、置信度预测损失和类别预测损失

  2. 使用的是差方和误差,w和h的误差计算是用平方根小box框的预测偏一点是不能忍受的

  3. 定位误差比分类误差更大,所以增加定位误差的惩罚

  4. 若网格中不包含任何目标,则训练时,这些网格中的置信度分数为零,可能导致模型训练早期发散,故要减少不包含目标框的置信度预测的损失

1.3 优劣势
1.3.1 优点
  1. YOLO检测速度非常快,每秒45张图像,达到了实时的效果
  2. 实时检测的平均精度是其他实时检测系统的两倍
  3. 迁移能力强,能运用到其他的新领域。
1.3.2 缺点
  1. YOLO对相互靠近的物体、很小的群体检测效果不好,网格中只预测了2个框,并且属于同一类;
  2. 由于损失函数的问题,定位误差影响检测效果很明显,尤其是在大小物体的处理上
  3. YOLO对不常见的角度目标泛化性能偏弱

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/542876.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

deepin23beta中SQLite3数据库安装与使用

SQLite 是一个嵌入式 SQL 数据库引擎,它实现了一个自包含、无服务器、零配置、事务性 SQL 数据库引擎。 SQLite 的代码属于公共领域,因此可以免费用于任何商业或私人目的。 SQLite 是世界上部署最广泛的数据库,其应用程序数量之多&#xff0c…

HarmonyOS应用开发-Stage模型开发概述

基本概念 UI框架 HarmonyOS提供了一套UI开发框架,即方舟开发框架(ArkUI框架)。提供了应用UI开发所必需的能力:多种组件、布局计算、动画能力、UI交互、绘制。 方舟开发框架针对开发者提供了两种开发范式: 基于ArkTS…

STM32-位带操作及位带别名区

这里写自定义目录标题 一、位带操作的基本含义及作用二、以STM32为例三、位带别名区和位带区(寄存器地址位地址)的转换关系四、使用例程 一、位带操作的基本含义及作用 位带别名区的设计主要是为了**方便对位带区单个比特位进行读写操作**。在某些应用场景下,需要频…

Hive借助java反射解决User-agent编码乱码问题

一、需求背景 在截取到浏览器user-agent,并想保存入数据库中,经查询发现展示的为编码后的结果。 现需要经过url解码过程,将解码后的结果保存进数据库,那么有几种实现方式。 二、问题解决 1、百度:url在线解码工具 …

Java 与 Go:可变数组

可变数组(也称为动态数组)是一种可以在运行时动态增加或减少其大小的数据结构。由于其动态分配大小,灵活性增删改查,动态地管理内存(在需要时动态分配内存空间,以适应数据结构的大小变化,而不会…

经典排序算法之基数排序详解|c++代码实现|简单易懂

引言 排序算法c实现系列第10弹(最后一弹)——基数排序。该系列文章主要讲解了十大经典排序算法,如最基础的冒泡排序、选择排序到借助堆数据结构实现的堆排序,其余所有算法的文章在本文最后都有链接,感兴趣的uu可以移步…

Java多线程实战-异步操作日志记录解决方案(AOP+注解+多线程)

🏷️个人主页:牵着猫散步的鼠鼠 🏷️系列专栏:Java全栈-专栏 🏷️本系列源码仓库:多线程并发编程学习的多个代码片段(github) 🏷️个人学习笔记,若有缺误,欢迎评论区指正…

PHP异世界云商系统开源源码

系统更新与修复列表 1. 基于彩虹的二次开发 - 对彩虹系统进行了二次开发,增强了系统的功能和性能。2. 新增自定义输入框提示内容(支持批量修改) - 用户可以自定义输入框的提示内容,并支持批量修改,提升用户体验。3. 新…

18-结构体(初识)

18-1 概念 我们现在已经知道的数据类型: char short int long float double 但是当我们需要描述一个复杂对象时,这些数据类型单独拿出来不能满足,如: 人:名字年龄性别地址电话 书:书名作者出版社定价书…

软件设计和体系结构

软件设计和体系结构 一、引言 软件 定义:一系列按照特定顺序组织的计算机数据、指令的集合 特点: 软件不是生产制造,是设计开发软件不会磨损和老化软件需要根据实际情况进行定制开发 软件设计的基本原则 抽象方法 过程抽象:是指…

Spring题库详解

3、Spring Beans 3.1、什么是Spring beans? Spring beans 是那些形成Spring应用的主干的java对象。它们被Spring IOC容器初始化,装配,和管理。这些beans通过容器中配置的元数据创建。比如,以XML文件中 的形式定义。 3.2、 一个…

【AIGC调研系列】通义灵码与copilot的对比

通义灵码与GitHub Copilot的对比主要集中在几个方面:代码编写能力、免费性、操作界面和适配性。 首先,在代码编写能力上,虽然GitHub Copilot在整体上要强于通义灵码,但通义灵码的能力也不算弱,并且在某些特定的小类任…