9.1.1 门控隐状态-编程知识

9.1.1 门控隐状态

news/2025/3/22 19:19:21/文章来源:https://www.cnblogs.com/dingxingdi/p/18786981

梯度消失问题是指在深度神经网络中，反向传播时梯度随着层数的增加逐渐变小，导致早期层的权重更新非常缓慢，甚至几乎不更新。这个问题在长序列的循环神经网络（RNN）中尤为明显。

为了缓解这个问题，门控循环单元（GRU）和长短期记忆网络（LSTM）引入了门控机制，使得网络能够更好地控制信息的流动。下面我们将通过数学推导来说明为什么GRU和LSTM可以缓解梯度消失问题。

LSTM的数学推导

LSTM的核心是引入了三个门：输入门、遗忘门和输出门。LSTM的单元状态更新公式如下：

遗忘门：

\[f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) \]
输入门：

\[i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \]
\[\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) \]
单元状态更新：

\[C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C}_t \]
输出门：

\[o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \]
\[h_t = o_t \cdot \tanh(C_t) \]

其中，\(\sigma\)是sigmoid函数，\(\tanh\)是双曲正切函数。

在反向传播时，LSTM的梯度更新公式为：

\[\frac{\partial C_t}{\partial C_{t-1}} = f_t \]

由于遗忘门\(f_t\)的值在0到1之间，它可以直接控制梯度在反向传播时的缩放。如果遗忘门接近1，梯度可以几乎不变地传递下去，从而避免了梯度消失问题。

GRU的数学推导

GRU是LSTM的简化版本，它合并了遗忘门和输入门，并引入了更新门和重置门。GRU的单元状态更新公式如下：

更新门：

\[z_t = \sigma(W_z \cdot [h_{t-1}, x_t]) \]
重置门：

\[r_t = \sigma(W_r \cdot [h_{t-1}, x_t]) \]
候选隐藏状态：

\[\tilde{h}_t = \tanh(W \cdot [r_t \cdot h_{t-1}, x_t]) \]
隐藏状态更新：

\[h_t = (1 - z_t) \cdot h_{t-1} + z_t \cdot \tilde{h}_t \]

在反向传播时，GRU的梯度更新公式为：

\[\frac{\partial h_t}{\partial h_{t-1}} = (1 - z_t) + z_t \cdot \frac{\partial \tilde{h}_t}{\partial h_{t-1}} \]

由于更新门\(z_t\)的值在0到1之间，它可以直接控制梯度在反向传播时的缩放。如果更新门接近1，梯度可以几乎不变地传递下去，从而避免了梯度消失问题。

总结

通过引入门控机制，LSTM和GRU能够在反向传播时更好地控制梯度的流动，从而缓解了梯度消失问题。这使得它们能够在处理长序列数据时表现得更好。

\(c^{\left<t\right>}\)就可以记很多个信息，不仅可以记主语是单数还是复数，也许还记下了文章的主题等等

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/903564.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

8.4.3 基于循环神经网络的字符级语言模型

字符级语言模型的优缺点见下好处：不用担心\(\left<\text{UNK}\right>\)的出现坏处：最终的序列要长的多；训练也要复杂得多（对内存和速度的要求都要高得多）现如今，人们一般使用单词级RNN，但是也有特殊情况会使用字符级RNN 在训练了一个RNN后，我们可以利用这个RN…

【rflysim】文档笔记：3.三维场景建模与仿真

仅为笔记，较为随意，欢迎交流⚠该博客只是个人笔记，可能包含大量未经考证的理解内容，故不建议有获取准确知识需求的朋友来阅读。欢迎讨论指出错误:D 由于目前暂时不需要进行建模方面的内容，故仅对本文档进行一个简单的阅读了解，方便后面其他的文档阅读。一、三维场景建…

关于 LCA （最近公共祖先）

最近公共祖先！对于一棵树上的两个点，他们的所有公共祖先中深度最大的那一个被称为它们的最近公共祖先（LCA）。求 LCA 有很多不同的方法。倍增倍增求 LCA，首先需要对树进行 dfs（废话），标记每个节点的直接父亲（\(2^0\) 级祖先）。然后我们就可以利用倍增的思想预处理它的…

初入博客园

Start 第一篇随笔记录一下对于博客园的便利使用技巧。自定义皮肤安装和配置博客园皮肤全称按照了guangzan大佬的说明教程。[1] 里面附带有一有获取音乐链接以及歌词的网站，感觉很有用😍；[2] 贴一个网站头部背景图（苹果初代机-麦金塔Macintosh）：待更新 🍀🍀🍀htt…

PCIe总线-RK3588 PCIe平台驱动分析

1.简介 RK3588 PCIe RC和EP使用同一个平台驱动，其主要的作用是解析设备树中的资源、初始化中断、使能电源、初始化PHY、使能时钟和释放复位，然后根据compatible属性初始化RC或者EP驱动。 2.入口平台驱动的定义如下，当compatible属性为"rockchip,rk3588-pcie"，则…

202413350081刁嘉怡博客园2

TASK11 #include <stdio.h>2 #include <stdlib.h>3 #include <time.h>4 5 #define N 56 7 int main() {8 int number;9 int i; 10 11 srand(time(0)); // 以当前系统时间作为随机种子 12 for(i = 0; i < N; ++i) { 13 numbe…

四则运算结对项目

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringClassof2023这个作业的目标结对合作生成一个四则运算题目生成器结对成员 3123004365彭颂华 &&3123004354黄子恒github地址 https://github.com/PShua/zuoye &&https://github.c…

一、安装依赖npm install sass-embedded二、配置全局变量 1、新建文件 src/styles/variables.scss 2、配置Vite 修改 vite.config.jscss: {preprocessorOptions: {scss: {additionalData: `@use "@/styles/variables" as *;`,},},},3、测试使用 a、在variables.scss…

在Android studio 里面想要写入文本内容怎么做

在 AndroidManifest.xml 文件中添加写入外部存储的权限。如果是 Android 6.0（API 级别 23）及以上的系统，还需要在运行时请求权限。在 MainActivity 的 writeToFile 方法里调用 FileHelper 类： private void writeToFile(String content) { FileHelper.writeToInternalStora…

iptables 介绍与实战

iptables是Linux内核中用于配置防火墙规则的工具。它基于Netfilter框架，可以对通过网络接口的数据包进行过滤、修改等操作。通过设置一系列规则，iptables能够控制哪些数据包可以进入或离开系统，从而实现网络安全防护等功能。它主要工作在网络层，能够根据数据包的源地址、目…

CF771E题解

CF771E题解很容易设出 \(dp_{i,j}\) 表示第一行选到 \(i\)，第二行选到 \(j\) 的方案数首先考虑部分分。 \(|a_i|\le 1\)，那么产生贡献的一个矩阵不会超过 \(2\)，那么就没必要考虑 \(|i-j|\ge 4\) 的状态了。证明如下：不妨设 \(i<j\)，那么我与其从 \(dp_{i,j}\to dp_{…