【AI论文阅读笔记】ResNet残差网络

在这里插入图片描述
论文地址:https://arxiv.org/abs/1512.03385

摘要

重新定义了网络的学习方式
让网络直接学习输入信息与输出信息的差异(即残差)
比赛第一名

1 介绍

不同级别的特征可以通过网络堆叠的方式来进行丰富
梯度爆炸、梯度消失解决办法:1.网络参数的初始标准化2.网络中间层的标准化(BN)
退化的解决办法:残差模块shortcut可以跳过一层或者多次来进行实现恒等映射,且没有增加额外的参数,也没有增加计算的复杂度ResNet复杂度比VGG-16要低

在这里插入图片描述

2 相关工作

    residual representations:shortcut connections:不带门功能

3 深度残差学习

3.1 残差学习残差函数 F(x)=H(x)-x很难将非线性的层训练成恒等映射但是在残差的框架下,如果恒等映射是最优的结果,那么网络只需要让新增加的非线性层的权重变为0,即可达到拟合恒等映射的目的。在实际的例子中,恒等映射或许不是最优的结果,但是却有助于解决训练退化的问题。(至少不会变差)

3.2 shortcut实现identity mapping

        y=F(x,{Wi})+x解决x和F(x)维度不一样的问题:y=F(x,{Wi})+Ws*x (这种方法叫投影映射,会带来额外的参数和计算量)

3.3 网络结构

      普通网络:残差网络:维度增加:(A) 新增的维度用0代替(zero-padding)(B) 线性投影(通过1x1卷积实现,会带来额外的参数和计算量)尺寸不一致:使用stridr=2的卷积来让他们统一。(下采样的一种,会带来额外的参数和计算量)

在这里插入图片描述

3.4 部署

                    在卷积和激活之间添加了BN(方差偏移)SGD优化器mini-batch size=256learning rate=0.1( The learning rate starts from 0.1 and is divided by 10 when the error plateaus)momentum=0.9没有使用dropout(与BN不兼容)

4 实验

4.1 ImageNet分类

                     训练集:128万验证集:5万测试:10万普通网络:观测到训练退化的问题:34层网络比18层网络有更高的训练误差这种退化现象不太可能是由梯度消失引起的:因为BN的使用,所以前向传播的过程中不会出现0方差的问题因为BN的使用,反向传播的过程中所展示出现的梯度也是健康的猜测是由于更深的普通网络就是有指数级的更低的收敛速度。(有待验证)残差网络:18层 34层对应增加的维度,使用0进行填充(方案A),所以相对于普通网络,没有增加新的参数发现:32层残差网络展示了相当低的训练误差,并且可以泛化到验证集说明:残差网络结构可以解决退化问题恒等映射VS投影映射:投影映射并不能在本质上解决退化的问题,而且引入了新的参数。所以为了减少内存使用,时间的复杂度和模型的大小,选择主要使用恒等映射(parameter-free),维度增加时,使用0进行填充。更深的瓶颈结构:无参数的恒等映射对应瓶颈结构来说尤其重要,轻量化。50层残差结构:101层和152层残差结构:和其他先进的方法比:

在这里插入图片描述
在这里插入图片描述

4.2 CIFAR-10数据集测试和分析

                 层响应分析开发大于1000层的网络

4.3 在PASCAL和MS coco上的目标检测

                在其他的识别任务上也有很好的泛化能力。比赛第一名

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/539904.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微博热搜榜单采集,微博热搜榜单爬虫,微博热搜榜单解析,完整代码(话题榜+热搜榜+文娱榜和要闻榜)

文章目录 代码1. 话题榜2. 热搜榜3. 文娱榜和要闻榜 过程1. 话题榜2. 热搜榜3. 文娱榜和要闻榜 代码 1. 话题榜 import requests import pandas as pd import urllib from urllib import parse headers { authority: weibo.com, accept: application/json, text/pl…

jdk版本规则看这里

Java Development Kit (JDK) 的版本号是由几个不同的数字和有时的字母组合来定义的,这些数字和字母表达了版本的不同层面。下面是 JDK 版本号的一般结构和它们各自的含义: JDK 版本号的组成 主版本号 - 表示主要的发布版本。例如,在 JDK 8 或…

使用 WXT 开发浏览器插件(上手使用篇)

WXT (https://wxt.dev/), Next-gen Web Extension Framework. 号称下一代浏览器开发框架. 可一套代码 (code base) 开发支持多个浏览器的插件. 上路~ WXT 提供了脚手架可以方便我们快速进行开发,但是我们得先安装好环境依赖,这里我们使用 npm, 所以需要…

某赛通电子文档安全管理系统 DecryptApplication 任意文件读取漏洞(2024年3月发布)

漏洞简介 某赛通电子文档安全管理系统 DecryptApplication 接口处任意文件读取漏洞,未经身份验证的攻击者利用此漏洞获取系统内部敏感文件信息,导致系统处于极不安全的状态。 漏洞等级高危影响版本*漏洞类型任意文件读取影响范围>1W 产品简介 …

Selenium 学习(0.20)——软件测试之单元测试

我又(浪完)回来了…… 很久没有学习了,今天忙完终于想起来学习了。没有学习的这段时间,主要是请了两个事假(5工作日和10工作日)放了个年假(13天),然后就到现在了。 看了下…

pytorch之诗词生成3--utils

先上代码: import numpy as np import settingsdef generate_random_poetry(tokenizer, model, s):"""随机生成一首诗:param tokenizer: 分词器:param model: 用于生成古诗的模型:param s: 用于生成古诗的起始字符串,默认为空串:return: …

Linux常用操作命令和服务器硬件基础知识

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

区别于传统家!三翼鸟定制智慧家电家居一体化场景

在这个科技创新、智能AI主导的时代,寻求更便捷智慧、舒心适宜、一体化的居家场景,成为一个时代的命题和竞赛,也是家居行业共同奔赴的使命。在纷繁复杂的竞争格局和方向答案中,一条清晰坚定的路径正在显露出来…… AWE前一天&…

搭建谷歌Gemini

前言 Gemini是Google AI于2023年发布的大型语言模型,拥有强大的文本生成、理解和转换能力。它基于Transformer模型架构,并使用了大量文本和代码数据进行训练。Gemini可以执行多种任务,包括: 生成文本:可以生成各种类…

物联网技术助力智慧城市转型升级:智能、高效、可持续

目录 一、物联网技术概述及其在智慧城市中的应用 二、物联网技术助力智慧城市转型升级的路径 1、提升城市基础设施智能化水平 2、推动公共服务智能化升级 3、促进城市治理现代化 三、物联网技术助力智慧城市转型升级的成效与展望 1、成效显著 2、展望未来 四、物联网技…

Excel第26享:模糊查找之Hlookup函数与通配符的嵌套

1、需求描述 如下图所示,现第一行有三个参考值:人S、羊E、猪3,在第三行有5个字:马、牛、人、羊、猪,每个字如果出现在第一行的三个参考值中,就返回该单元格的数值。如,人,就返回“人…

画图实战-Python实现某产品全年销量数据多种样式可视化

画图实战-Python实现某产品全年销量数据多种样式可视化 学习心得Matplotlib说明什么是Matplotlib?Matplotlib特性Matplotlib安装 产品订单量-折线图某产品全年订单量数据数据提取和分析绘制折线图 产品订单&销售额-条形图某产品全年订单&销售额数据绘制条形…