【目标检测】原始的 YOLOv1 网络结构(GoogLeNet 作为 backbone 的实现)

现在看网上的很多 YOLOv1 的代码实现,基本都是使用新的 backbone,例如 ResNet 或者 VGG 来实现的,因为这些后面的通用的 backbone 可能比较方便的获得预训练模型,不需要从头开始训练。

但是我就是想看一下,一开始 YOLOv1 网络结构是咋样的,所以就当做学习了,来还原一下最初的 YOLOv1 网络结构。

比较常见的图有两张:

在这里插入图片描述
这张是原论文里面的图片,我后面根据下面的卷积参数进行复现的时候,发现如果严格按照上面的输出的话,有输出张量的通道数,图上应该是标错了的。

在这里插入图片描述
这里张图应该也是网友制作的图,但是其中的一个张量的尺寸也是错误的。

首先我们根据论文提供的第一张图的网络结构参数来复原一下:

layeroutput sizemodule
448x448x3
1224x224x64Conv 7x7x64, s-2, p-3modified GoogLeNet backbone
112x112x64Maxpool 2x2, s-2, p-0modified GoogLeNet backbone
2112x112x192Conv 3x3x192, s-1, p-1modified GoogLeNet backbone
56x56x192Maxpool 2x2, s-2, p-0modified GoogLeNet backbone
356x56x128Conv 1x1x128, s-1, p-0modified GoogLeNet backbone
456x56x256Conv 3x3x256, s-1, p-1modified GoogLeNet backbone
556x56x256Conv 1x1x256, s-1, p-0modified GoogLeNet backbone
656x56x512Conv 3x3x512, s-1, p-1modified GoogLeNet backbone
28x28x512Maxpool 2x2, s-2, p-0modified GoogLeNet backbone
7,9,11,1328x28x256Conv 1x1x256, s-1, p-0modified GoogLeNet backbone
8,10,12,1428x28x512Conv 3x3x512, s-1, p-1modified GoogLeNet backbone
1528x28x512Conv 1x1x512, s-1, p-0modified GoogLeNet backnone
1628x28x1024Conv 3x3x1024, s-1, p-1modified GoogLeNet backbone
14x14x1024Maxpool 2x2, s-2, p-0modified GoogLeNet backbone
17,1914x14x512Conv 1x1x512, s-1, p-0modified GoogLeNet backbone
18,2014x14x1024Conv 3x3x1024, s-1, p-1modified GoogLeNet backbone
2114x14x1024Conv 3x3x1024, s-1, p-1
227x7x1024Conv 3x3x1024, s-2, p-1
237x7x1024Conv 3x3x1024, s-1, p-1
247x7x1024Conv 3x3x1024, s-1, p-1
254096x1FC1
261470x1FC2
7x7x30reshape

从这个这个表格我们可以看到:

  • 前 20 层是 backbone,属于魔改之后的 GoogLeNet 网络,修改的细节后续会给出。
  • 在 backbone 后面,还接着 4 个卷积层和 2 个全连接层,最后进行 reshape,输出我们想要的张量维度。

YOLOv1 的 backbone 是根据 GoogLeNet 进行修改的。

首先看一下 GoogLeNet 的网络结构,之前出过一篇文章专门介绍 Inception 家族的,所以 GoogLeNet 的结构示意图如下:

在这里插入图片描述

具体来说,这里的 GoogLeNet modification(20 layers)就是采用 1×1 卷积层加 3×3 卷积层替换了
GoogLeNet 中的 Inception 模块,然后去掉了第二层 1x1 的卷积层和最后的 fc 层

在这里插入图片描述
这就是我们 YOLOv1 的网络结构图:

  • 左边部分就是魔改之后的 GoogLeNet backbone,其中 Inception 的部分都使用 1x1 和 3x3 卷积替代了。简单来说,相当于将 Inception 模块中多条分支,只保留了 1x1 和 3x3 卷积单条分支。
    在这里插入图片描述
  • 中间部分就是紫色 Stem 模块的展开,其中如同上面描述的那样,第二层的 1x1 卷积去掉了
  • 右边部分就是 YOLOv1 最后的输出部分

参考文献

  • 目标检测 YOLO 系列: 开宗立派 YOLO v1
  • You Only Look Once: Unified, Real-Time Object Detection

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/543974.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣hot100:416.分割等和子集(组合/动态规划/STL问题)

组合数问题 我们思考一下,如果要把数组分割成两个子集,并且两个子集的元素和相等,是否等价于在数组中寻找若干个数使之和等于所有数的一半?是的! 因此我们可以想到,两种方式: ①回溯的方式找到t…

批量查询快递不再难,前缀单号助你轻松搞定!

在快递业务日益繁忙的当下,批量查询快递单号成为了许多人的迫切需求。如何能够快速、准确地找到所需的快递单号呢?其实,利用前缀单号进行批量查询是一个高效且实用的方法。下面,就让我们一起了解如何利用前缀单号轻松查找快递单号…

Delphi7应用教程学习1.3【练习题目】:文本及悬停文字的显示

这个例子主要用到了btn的Hint 属性,Hint是提示的意思。 还有Delphi7还是很好用的,改变了的属性是粗体,默认没有改变的属性为细体。

力扣L10--- 3. 无重复字符的最长子串--2024年3月14日

1.题目 2.知识点 注1:containsKey 是 Java 中 HashMap 类的一个方法,用于检查哈希表中是否包含指定的键。 注2:在哈希表(HashMap)中,每个键对应着唯一的值,因此键不能重复,但值可以重复。 (1)创…

Linux基础命令[19]-id

文章目录 1. id 命令说明2. id 命令语法3. id 命令示例3.1 不加参数3.2 -u/-g/-G(用户、组、所属组)3.3 -gr/-Gr/-ur(有效ID) 4. 总结 1. id 命令说明 id:显示真实有效的用户ID(UID)和组ID(GID),十分方便&…

C/C++火柴棍等式

有n根(n<24)火柴棍&#xff0c;你可以拼出多少个形如“ABC"的等式?等式中的A、B、C是用火柴棍拼出的整数(若该数非零&#xff0c;则最高位不能是0)。用火柴棍拼数字0-9的拼法如图所示: 依次需要用到的火柴棍数目为6 2 5 5 4 5 6 3 7 6 。 如果是初学者可能会这么写。 …

Navicat 面试题及答案整理,最新面试题

Navicat 在数据库管理中的主要用途有哪些&#xff1f; Navicat 是一款数据库管理工具&#xff0c;其主要用途包括&#xff1a; 1、多数据库支持&#xff1a; Navicat 支持多种数据库连接&#xff0c;包括 MySQL、Oracle、PostgreSQL、SQLite、SQL Server 等&#xff0c;方便用…

Android分区存储到底是怎么回事

文章目录 一、Android存储结构二、什么是分区存储&#xff1f;三、私有目录和公有目录三、存储权限和分区存储有什么关系&#xff1f;四、我们应该该怎么做适配&#xff1f;4.1、利用File进行操作4.2、使用MediaStore操作数据库 一、Android存储结构 Android存储分为内部存储和…

系统重构后,对项目定制开发的兼容性问题

公司自实施产品线战略以来&#xff0c;基本推翻了全部旧有业务模块。后续以标准产品二次开发的模式进行项目开发。但在涉及到一些旧有系统二期、三期升级改造过程中。不可避免的需要解决旧有系统的客户定制化开发兼容性问题。也就是旧有系统定制开发的模块不能丢弃。重新开发从…

HTTPS证书很贵吗?

首先&#xff0c;我们需要明确一点&#xff0c;HTTPS证书的价格并不是一成不变的&#xff0c;它受到多种因素的影响。其中最主要的因素包括证书的类型、颁发机构以及所需的验证级别。 从类型上来看&#xff0c;HTTPS证书主要分为单域名证书、多域名证书和通配符证书。单域名证书…

更安全的C gets()和str* 以及fgets和strcspn的用法

#include <stdio.h>int main() {char *str;gets(str);puts(str);return(0); }可以说全是错误 首先char *str没有指向一个分配好的地址&#xff0c;就直接读入&#xff0c;危险 ps: 怎么理解char *str "Hello World" 是将一个存储在一个只读的数据段中字符串常…

(六)Android布局类型(表格布局TableLayout)

表格布局&#xff08;TableLayout&#xff09;&#xff0c;呈现行列方式&#xff0c;无法设置列&#xff0c;可以设置行&#xff0c;行数由TableRow对象个数决定。下图中有两个TableRow元素&#xff0c;所以&#xff0c;说明表格布局中有两行。 将内容填充到行中 第一行中&…