8.7.1 循环神经网络的梯度分析-编程知识

8.7.1 循环神经网络的梯度分析

news/2025/3/17 12:18:03/文章来源:https://www.cnblogs.com/dingxingdi/p/18773263

为什么要将式\((8.29)\)的循环计算去除变成式\((8.32)\)？直接对式\((8.29)\)进行递推计算不可以吗？
在循环神经网络（RNN）中，将式(8.29)的递归计算展开为式(8.32)的显式求和形式，主要有以下原因：

1. 揭示梯度传播的长期依赖问题

式(8.29)的递归形式为：

\[a_t = b_t + c_t a_{t-1}, \]

而展开后的式(8.32)为：

\[a_t = b_t + \sum_{i=1}^{t-1} \left( \prod_{j=i+1}^t c_j \right) b_i. \]

通过显式展开，可以清晰地看到：

梯度是多个时间步的累积：每个 \(b_i\) 的贡献被乘以一系列 \(c_j\) 的连乘积（即 \(\prod_{j=i+1}^t c_j\)）。
梯度消失/爆炸的根源：若 \(c_j\) 的值长期大于1（梯度爆炸）或小于1（梯度消失），连乘积会指数级放大或衰减。例如：
- 若所有 \(c_j = 0.9\)，则 \(\prod_{j=1}^{10} c_j \approx 0.35\)，梯度显著衰减。
- 若所有 \(c_j = 1.1\)，则 \(\prod_{j=1}^{10} c_j \approx 2.59\)，梯度急剧增长。

这种显式表达直接暴露了 RNN 难以处理长期依赖的本质问题，为后续改进模型（如 LSTM、GRU）提供了理论依据。

2. 避免递归计算的数值不稳定

直接对式(8.29)进行递推计算在理论上是可行的，但在实践中存在以下问题：

计算图的深度过大：反向传播时，梯度需沿时间步逐层传递。若时间步数 \(t\) 很大（如 \(t=1000\)），计算图的深度会导致内存占用和计算量激增。
数值不稳定性：递归计算会反复乘以 \(c_t\)，数值误差可能累积（如浮点精度问题），导致梯度计算不准确。

3. 为优化算法提供分析基础

展开后的形式（式(8.32)）能更直观地指导优化策略，例如：

梯度裁剪：显式连乘积可帮助识别梯度爆炸的临界点，从而合理裁剪梯度。
截断反向传播（Truncated BPTT）：通过限制求和范围（如只考虑最近 \(k\) 个时间步），降低计算复杂度，同时缓解梯度消失/爆炸。

示例：梯度消失的直观分析

假设 \(c_j = \sigma < 1\)（如 Sigmoid 激活函数的导数），则：

\[\prod_{j=i+1}^t c_j = \sigma^{t-i}. \]

当 \(t-i\) 较大时，\(\sigma^{t-i} \approx 0\)，导致较早时间步（如 \(i \ll t\)）的梯度贡献几乎为零。这种显式表达清晰地表明，RNN 难以捕捉远距离依赖关系。

总结

将递归形式展开为显式求和的主要目的是：

理论分析：明确梯度传播的数学性质，揭示长期依赖问题的根源。
工程优化：为设计稳定、高效的训练策略（如梯度裁剪、模型结构改进）提供依据。
数值稳定性：避免递归计算中潜在的误差累积和计算资源浪费。

直接递推计算虽在形式上简洁，但无法直观反映梯度传播的动态特性，也难以指导实际优化。因此，显式展开是分析 RNN 梯度问题的关键步骤。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/899054.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Java对象的“自我介绍术”：彻底搞懂toString()魔法

Java对象的“自我介绍术”：彻底搞懂toString()魔法

本文以Java中toString()方法的底层原理与实践应用为核心，通过案例分析与代码实战，系统解析了该方法在对象调试、日志输出等场景中的重要性，并提供了一套完整的开发指导方案。前言当小Z在咖啡馆调试代码时，打印了Java对象，看着控制台输出的Student@2f4d3709陷入困惑。这个…

阅读更多...

读DAMA数据管理知识体系指南20数据安全风险

读DAMA数据管理知识体系指南20数据安全风险

读DAMA数据管理知识体系指南20数据安全风险1. 数据安全制约因素 1.1. 保密等级1.1.1. 保密意味着机密或私密1.1.2. 机密信息仅在“需要知道”的基础上共享1.1.3. 保密等级取决于谁需要知道某些类型的信息1.2. 监管要求1.2.1. 根据外部规则（如法律、条约、海关协定和行业法规）…

阅读更多...

git 已知问题命令行调用 git 时可能存在环境变量投毒问题

git 已知问题命令行调用 git 时可能存在环境变量投毒问题

本文记录一个我在 git 钩子唤起一个 C# dotnet 的进程，在此进程里面使用 Process.Start 执行 git 命令的时候，被 git 钩子环境变量投毒的问题核心代码非常简单，我只是使用 git add 命令而已var sourceFolder = @"C:\lindexi\Work\Source\";var processStartInfo =…

阅读更多...

eSIM神器之ESTK记录

eSIM神器之ESTK记录

本文内容一部分引用“ 灯塔旅人”公众号文章内容。先说原理：原理 ⚡️普通手机：营业厅将信息写入实体SIM中，然后插入手机，实现相关功能； ⚡️eSIM手机：内置了eSIM芯片，可以直接扫码写入运营商提供的eSIM并支持切换； ⚡️ESTK：形象地比喻为将eSIM手机中eSIM芯片取出，…

阅读更多...

Google TPU第六代TPUv6

Google TPU第六代TPUv6

简单谈谈Google TPUv6 根据Google TPU第六代的数据做了一些性能数据的对比，需要注意的是TPUv6当前应该是一个用于训推一体的单Die的版本,用于训练的V6p双Die版本应该会后期再发布. 需要注意的是在国内外都开始卷大模型推理价格的时候, TPU这样的东西对于提高ROI非常有帮助。快…

阅读更多...

NPU 是什么芯片？AI芯片都有哪些？（下）

NPU 是什么芯片？AI芯片都有哪些？（下）

8. HPU（Holographic Processing Unit）全息处理器。微软HoloLens是世界上首台独立的全息计算机设备，能够提供高清晰度的全息影像，其秘密在于HoloLens搭载的Holographic Processing Unit（全息处理单元，简称HPU），这是一款定制芯片，可以处理和交互不同传感器及Intel Atom…

阅读更多...

NPU 是什么芯片？AI芯片都有哪些？（上）

NPU 是什么芯片？AI芯片都有哪些？（上）

NPU 是什么芯片？AI芯片都有哪些？ NPU就是CPU功能细化的产物，就像当年只有CPU一样，发现处理一些简单的重复的任务，特别像游戏这种大量作图时只能用软件算法，效率及其低下，所以发展处的加速卡，发展成为GPU，现在处理一些ai学习算法时都是用GPU软件模拟，效率低下，功耗大…

阅读更多...

Nginx 配置与实战

Nginx 配置与实战

Nginx 是开源、高性能、高可靠的 Web 和反向代理服务器，而且支持热部署，几乎可以做到 7 * 24 小时不间断运行，即使运行几个月也不需要重新启动，还能在不间断服务的情况下对软件版本进行热更新。性能是 Nginx 最重要的考量，其占用内存少、并发能力强、能支持高达 5w 个并发…

阅读更多...

《AI芯片开发核心技术详解》、《智能汽车传感器：原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 4本书推荐

《AI芯片开发核心技术详解》、《智能汽车传感器：原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 4本书推荐

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器：原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版，京东、淘宝天猫、当当等网上，相应陆陆续续可以购买。该…

阅读更多...

乐心手环6S拆解

乐心手环6S拆解

PART1:背景使用了1年多的乐心手环电量终于扛不住了，于是便拆开看看里面使用的方案还有堆叠设计PART2:拆解先来看看乐心手环产品功能和外观照片去掉手环的表带，通过热风枪调至200℃，对这面盖和四周均匀加热至烫手，然后从两边拆开即可分离面盖和主体元器件清单可以看到使用的…

阅读更多...

请求响应

请求响应

apipost插件,用于测试1. 简单参数通过request手动获取请求参数: @RestController public class easy {@RequestMapping("/easyget")public String easyget(HttpServletRequest request) { //通过request获取参数String name = request.getParameter("name"…

阅读更多...

【机器学习面试场景问题】

【机器学习面试场景问题】

1、ResNet是什么？ ‌ResNet（Residual Network，残差网络）是一种在深度学习领域中非常重要的卷积神经网络（CNN）架构。 ResNet的核心思想是残差学习，通过学习输入与输出的残差，简化优化任务。其关键结构是残差块，通过短连接（Skip Connection）直接跳过部分非线性层，将输…

阅读更多...

推荐文章

最新文章