梯度消失/梯度爆炸

梯度消失/梯度爆炸(Vanishing / Exploding gradients)

梯度消失或梯度爆炸:训练神经网络的时候,导数或坡度有时会变得非常大,或者非常小,甚至于以指数方式变小,这加大了训练的难度。

在这里插入图片描述

g ( z ) = z , b [ l ] = 0 g(z)=z,b^{[l]}=0 g(z)=z,b[l]=0

y ^ = W [ l ] W [ l − 1 ] W [ l − 2 ] ⋯ W [ 3 ] W [ 2 ] W [ 1 ] x \hat{y}=W^{[l]}W^{[l-1]}W^{[l-2]}\cdots W^{[3]}W^{[2]}W^{[1]}x y^=W[l]W[l1]W[l2]W[3]W[2]W[1]x

z [ 1 ] = W [ 1 ] x z^{[1]}=W^{[1]}x z[1]=W[1]x

a [ 1 ] = g ( z [ 1 ] ) = z [ 1 ] a^{[1]}=g(z^{[1]})=z^{[1]} a[1]=g(z[1])=z[1]

a [ 2 ] = g ( z [ 2 ] ) = g ( w [ 2 ] a [ 1 ] ) a^{[2]}=g(z^{[2]})=g(w^{[2]}a^{[1]}) a[2]=g(z[2])=g(w[2]a[1])

⋯ \cdots

若: W [ l ] = [ 1.5 0 0 1.5 ] , y ^ = W [ L ] [ 1.5 0 0 1.5 ] L − 1 x W^{[l]}=\left[ \begin{matrix}1.5&0\\0&1.5\end{matrix} \right],\hat{y}=W^{[L]}\left[ \begin{matrix}1.5&0\\0&1.5\end{matrix} \right]^{L-1}x W[l]=[1.5001.5],y^=W[L][1.5001.5]L1x

注:假设 W [ L ] W^{[L]} W[L] W [ l ] W^{[l]} W[l] 相等

这会导致 y ^ \hat{y} y^ 呈指数级增长,比率: 1. 5 L 1.5^L 1.5L

相反,若 W [ l ] = [ 0.5 0 0 0.5 ] , y ^ = W [ L ] [ 0.5 0 0 0.5 ] L − 1 x W^{[l]}=\left[ \begin{matrix}0.5&0\\0&0.5\end{matrix} \right],\hat{y}=W^{[L]}\left[ \begin{matrix}0.5&0\\0&0.5\end{matrix} \right]^{L-1}x W[l]=[0.5000.5],y^=W[L][0.5000.5]L1x

  • 这会导致激活函数的值将以指数级下降,它是与网络层数数量 L L L 相关的函数,在深度网络中,激活函数以指数级递减。

W [ l ] W^{[l]} W[l] 略大于 1,激活函数将爆炸式增长

W [ l ] W^{[l]} W[l] 略小于 1,激活函数将以指数级递减

同理:与层数 L L L 相关的导数或梯度函数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/637318.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

目标检测YOLO数据集的三种格式及转换

目标检测YOLO数据集的三种格式 在目标检测领域,YOLO(You Only Look Once)算法是一个流行的选择。为了训练和测试YOLO模型,需要将数据集格式化为YOLO可以识别的格式。以下是三种常见的YOLO数据集格式及其特点和转换方法。 1. YOL…

node的事件循环

异步同步啥的就不多说了,直接看node中有哪些是异步 其中灰色部分和操作系统有很大的关系,就不多说了,其中定时器属于timers队列,I/O操作属于poll队列,setImmediate属于check队列,其中nextTick和promise不属…

PTA L2-052 吉利矩阵

题目 解析 这题考的是搜索剪枝 可行性剪枝: 即判断当前行(列)是否已经超过L和剩下的格子都填最大值是否小于L,若是则剪枝。 当前行数大于1时,判断上一个填完的行是否等于L,若否,则剪枝。 当前行…

【深度学习实战(12)】训练之模型参数初始化

在深度学习模型的训练中,权重的初始值极为重要。一个好的初始值,会使模型收敛速度提高,使模型准确率更精确。一般情况下,我们不使用全0初始值训练网络。为了利于训练和减少收敛时间,我们需要对模型进行合理的初始化。 …

linux 下的 sqlite数据库

SQLite 认识 SQLite简介 轻量化,易用的嵌入式数据库,用于设备端的数据管理,可以理解成单点的数据库。传统服务器型数据库用于管理多端设备,更加复杂 SQLite是一个无服务器的数据库,是自包含的。这也称为嵌入式数据库&…

在Linux系统中,禁止有线以太网使用NTP服务器进行时间校准的几种方法

目录标题 方法 1:修改NTP配置以禁止所有同步方法 2:通过网络配置禁用NTP同步方法 3:禁用NTP服务 在Linux系统中,如果想要禁止有线以太网使用NTP服务器进行时间校准,可以通过以下几种方法之一来实现: 方法 …

107页 | 企业数字化转型规划设计(免费下载)

【1】关注本公众号,转发当前文章到微信朋友圈 【2】私信发送 【企业数字化转型规划设计】 【3】获取本方案PDF下载链接,直接下载即可。 如需下载本方案PPT原格式,请加入微信扫描以下方案驿站知识星球,获取上万份PPT解决方案&…

xpath的使用以及原理-元素定位

# 查找文本框输入文本 driver.find_element(By.CLASS_NAME,"nav-search-input").send_keys("i_cecream查找到了") #查找到之后点击 driver.find_element(By.CLASS_NAME,"nav-search-btn").click()time.sleep(30)selenium4的解析。 client调用se…

Vue 中 mixins(混入)的介绍和使用

目录 前言 什么是 mixins? 如何创建 mixins? 如何使用 mixins mixins 的特点 方法和参数在各组件中不共享 mixins 与组件冲突 冲突之 合并覆盖 冲突之 合并 全局 mixins mixins 中有异步请求的情况 与 vuex 的区别 与公共组件的区别 前言 在项目开发的时候&…

论文笔记:Time-LLM: Time Series Forecasting by Reprogramming Large Language Models

iclr 2024 reviewer 评分 3888 1 方法 提出了 Time-LLM, 是一个通用的大模型重编程(LLM Reprogramming)框架将 LLM 轻松用于一般时间序列预测,而无需对大语言模型本身做任何训练 为什么需要时序数据和文本数据对齐:时…

个人电脑信息安全注意事项

个人电脑信息安全注意事项 一、密码安全: 设置复杂且独特的密码,避免使用容易猜测或常见的密码。 定期更换密码,特别是在重要账户或应用上。 不要在多个账户上重复使用相同的密码。 使用密码管理工具来安全地存储和访问密码。 二、软件安…