8.7.1 循环神经网络的梯度分析

news/2025/3/15 8:57:24/文章来源:https://www.cnblogs.com/dingxingdi/p/18773263

为什么要将式\((8.29)\)的循环计算去除变成式\((8.32)\)?直接对式\((8.29)\)进行递推计算不可以吗?
在循环神经网络(RNN)中,将式(8.29)的递归计算展开为式(8.32)的显式求和形式,主要有以下原因:


1. 揭示梯度传播的长期依赖问题

式(8.29)的递归形式为:

\[a_t = b_t + c_t a_{t-1}, \]

而展开后的式(8.32)为:

\[a_t = b_t + \sum_{i=1}^{t-1} \left( \prod_{j=i+1}^t c_j \right) b_i. \]

通过显式展开,可以清晰地看到:

  • 梯度是多个时间步的累积:每个 \(b_i\) 的贡献被乘以一系列 \(c_j\) 的连乘积(即 \(\prod_{j=i+1}^t c_j\))。
  • 梯度消失/爆炸的根源:若 \(c_j\) 的值长期大于1(梯度爆炸)或小于1(梯度消失),连乘积会指数级放大或衰减。例如:
    • 若所有 \(c_j = 0.9\),则 \(\prod_{j=1}^{10} c_j \approx 0.35\),梯度显著衰减。
    • 若所有 \(c_j = 1.1\),则 \(\prod_{j=1}^{10} c_j \approx 2.59\),梯度急剧增长。

这种显式表达直接暴露了 RNN 难以处理长期依赖的本质问题,为后续改进模型(如 LSTM、GRU)提供了理论依据。


2. 避免递归计算的数值不稳定

直接对式(8.29)进行递推计算在理论上是可行的,但在实践中存在以下问题:

  • 计算图的深度过大:反向传播时,梯度需沿时间步逐层传递。若时间步数 \(t\) 很大(如 \(t=1000\)),计算图的深度会导致内存占用和计算量激增。
  • 数值不稳定性:递归计算会反复乘以 \(c_t\),数值误差可能累积(如浮点精度问题),导致梯度计算不准确。

3. 为优化算法提供分析基础

展开后的形式(式(8.32))能更直观地指导优化策略,例如:

  • 梯度裁剪:显式连乘积可帮助识别梯度爆炸的临界点,从而合理裁剪梯度。
  • 截断反向传播(Truncated BPTT):通过限制求和范围(如只考虑最近 \(k\) 个时间步),降低计算复杂度,同时缓解梯度消失/爆炸。

示例:梯度消失的直观分析

假设 \(c_j = \sigma < 1\)(如 Sigmoid 激活函数的导数),则:

\[\prod_{j=i+1}^t c_j = \sigma^{t-i}. \]

\(t-i\) 较大时,\(\sigma^{t-i} \approx 0\),导致较早时间步(如 \(i \ll t\))的梯度贡献几乎为零。这种显式表达清晰地表明,RNN 难以捕捉远距离依赖关系。


总结

将递归形式展开为显式求和的主要目的是:

  1. 理论分析:明确梯度传播的数学性质,揭示长期依赖问题的根源。
  2. 工程优化:为设计稳定、高效的训练策略(如梯度裁剪、模型结构改进)提供依据。
  3. 数值稳定性:避免递归计算中潜在的误差累积和计算资源浪费。

直接递推计算虽在形式上简洁,但无法直观反映梯度传播的动态特性,也难以指导实际优化。因此,显式展开是分析 RNN 梯度问题的关键步骤。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/899054.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java对象的“自我介绍术”:彻底搞懂toString()魔法

本文以Java中toString()方法的底层原理与实践应用为核心,通过案例分析与代码实战,系统解析了该方法在对象调试、日志输出等场景中的重要性,并提供了一套完整的开发指导方案。前言 当小Z在咖啡馆调试代码时,打印了Java对象,看着控制台输出的Student@2f4d3709陷入困惑。这个…

读DAMA数据管理知识体系指南20数据安全风险

读DAMA数据管理知识体系指南20数据安全风险1. 数据安全制约因素 1.1. 保密等级1.1.1. 保密意味着机密或私密1.1.2. 机密信息仅在“需要知道”的基础上共享1.1.3. 保密等级取决于谁需要知道某些类型的信息1.2. 监管要求1.2.1. 根据外部规则(如法律、条约、海关协定和行业法规)…

git 已知问题 命令行调用 git 时可能存在环境变量投毒问题

本文记录一个我在 git 钩子唤起一个 C# dotnet 的进程,在此进程里面使用 Process.Start 执行 git 命令的时候,被 git 钩子环境变量投毒的问题核心代码非常简单,我只是使用 git add 命令而已var sourceFolder = @"C:\lindexi\Work\Source\";var processStartInfo =…

eSIM神器之ESTK记录

本文内容一部分引用“ 灯塔旅人”公众号文章内容。 先说原理: 原理 ⚡️普通手机:营业厅将信息写入实体SIM中,然后插入手机,实现相关功能; ⚡️eSIM手机:内置了eSIM芯片,可以直接扫码写入运营商提供的eSIM并支持切换; ⚡️ESTK:形象地比喻为将eSIM手机中eSIM芯片取出,…

Google TPU第六代TPUv6

简单谈谈Google TPUv6 根据Google TPU第六代的数据做了一些性能数据的对比,需要注意的是TPUv6当前应该是一个用于训推一体的单Die的版本,用于训练的V6p双Die版本应该会后期再发布. 需要注意的是在国内外都开始卷大模型推理价格的时候, TPU这样的东西对于提高ROI非常有帮助。快…

NPU 是什么芯片?AI芯片都有哪些?(下)

8. HPU(Holographic Processing Unit) 全息处理器。微软HoloLens是世界上首台独立的全息计算机设备,能够提供高清晰度的全息影像,其秘密在于HoloLens搭载的Holographic Processing Unit(全息处理单元,简称HPU),这是一款定制芯片,可以处理和交互不同传感器及Intel Atom…

NPU 是什么芯片?AI芯片都有哪些?(上)

NPU 是什么芯片?AI芯片都有哪些? NPU就是CPU功能细化的产物,就像当年只有CPU一样,发现处理一些简单的重复的任务,特别像游戏这种大量作图时只能用软件算法,效率及其低下,所以发展处的加速卡,发展成为GPU,现在处理一些ai学习算法时都是用GPU软件模拟,效率低下,功耗大…

Nginx 配置与实战

Nginx 是开源、高性能、高可靠的 Web 和反向代理服务器,而且支持热部署,几乎可以做到 7 * 24 小时不间断运行,即使运行几个月也不需要重新启动,还能在不间断服务的情况下对软件版本进行热更新。性能是 Nginx 最重要的考量,其占用内存少、并发能力强、能支持高达 5w 个并发…

《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 4本书推荐

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该…

乐心手环6S拆解

PART1:背景使用了1年多的乐心手环电量终于扛不住了,于是便拆开看看里面使用的方案还有堆叠设计PART2:拆解先来看看乐心手环产品功能和外观照片去掉手环的表带,通过热风枪调至200℃,对这面盖和四周均匀加热至烫手,然后从两边拆开即可分离面盖和主体元器件清单可以看到使用的…

请求响应

apipost插件,用于测试1. 简单参数 通过request手动获取请求参数: @RestController public class easy {@RequestMapping("/easyget")public String easyget(HttpServletRequest request) { //通过request获取参数String name = request.getParameter("name"…

【机器学习面试场景问题】

1、ResNet是什么? ‌ResNet(Residual Network,残差网络)是一种在深度学习领域中非常重要的卷积神经网络(CNN)架构。 ResNet的核心思想是残差学习,通过学习输入与输出的残差,简化优化任务。其关键结构是残差块,通过短连接(Skip Connection)直接跳过部分非线性层,将输…