概述

循环神经网络（Recurrent Neural Network，RNN）是一种具有循环连接的神经网络结构，被广泛应用于自然语言处理、语音识别、时序数据分析等任务中。相较于传统神经网络，RNN的主要特点在于它可以处理序列数据，能够捕捉到序列中的时序信息。

RNN的基本单元是一个循环单元（Recurrent Unit），它接收一个输入和一个来自上一个时间步的隐藏状态，并输出当前时间步的隐藏状态。在传统的RNN中，循环单元通常使用tanh或ReLU等激活函数。

基本循环神经网络

原理

基本的循环神经网络，结构由输入层、一个隐藏层和输出层组成。

在这里插入图片描述
　　 $x$ 是输入向量， $o$ 是输出向量， $s$ 表示隐藏层的值； $U$ 是输入层到隐藏层的权重矩阵， $V$ 是隐藏层到输出层的权重矩阵。循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入 $x$ ，还取决于上一次隐藏层的值 $s$ 。权重矩阵W就是隐藏层上一次的值作为这一次的输入的权重。
　　
将上图的基本RNN结构在时间维度展开(RNN是一个链式结构，每个时间片使用的是相同的参数,t表示t时刻)：
在这里插入图片描述
现在看上去就会清楚许多，这个网络在t时刻接收到输入 $x_t$ 之后，隐藏层的值是 $s_t$ ，输出值是 $o_t$ 。关键一点是 $s_t$ 的值不仅仅取决于 $x_t$ ，还取决于 $s_{t−1}$ 。
公式1： $s_t=f(U∗x_t+W∗s_{t−1}+B1)$
公式2： $o_t=g(V∗s_t+B2)$

式1是隐藏层的计算公式，它是循环层。U是输入x的权重矩阵，W是上一次隐藏层值 $S_{t−1}$ 作为这一次的输入的权重矩阵，f是激活函数。
式2是输出层的计算公式，V是输出层的权重矩阵，g是激活函数,B1,B2是偏置假设为0。

隐含层有两个输入，第一是U与 $x_t$ 向量的乘积，第二是上一隐含层输出的状态 $s_t−1$ 和W的乘积。等于上一个时刻计算的 $s_t−1$ 需要缓存一下，在本次输入 $x_t$ 一起计算，共同输出最后的 $o_t$ 。

如果反复把式1带入式2，我们将得到：
在这里插入图片描述
从上面可以看出，循环神经网络的输出值ot，是受前面历次输入值、、、、、、、、 $x_t$ 、 $x_{t−1}$ 、 $x_{t−2}$ 、 $x_{t−3}$ 、…影响的，这就是为什么循环神经网络可以往前看任意多个输入值的原因。这样其实不好，因为如果太前面的值和后面的值已经没有关系了，循环神经网络还考虑前面的值的话，就会影响后面值的判断。

上面是整个单向单层NN的前向传播过程

为了更快理解输入x输入格式下面使用nlp中Word Embedding讲解下。

Word Embedding

首先我们需要对输入文本x进行编码，使之成为计算机可以读懂的语言，在编码时，我们期望句子之间保持词语间的相似行，词的向量表示是进行机器学习和深度学习的基础。

word embedding的一个基本思路就是，我们把一个词映射到语义空间的一个点，把一个词映射到低维的稠密空间，这样的映射使得语义上比较相似的词，他在语义空间的距离也比较近，如果两个词的关系不是很接近，那么在语义空间中向量也会比较远。

在这里插入图片描述
如上图英语和西班牙语映射到语义空间，语义相同的数字他们在语义空间分布的位置是相同的
简单回顾一下word embedding,对于nlp来说，我们输入的是一个个离散的符号，对于神经网络来说，它处理的都是向量或者矩阵。所以第一步，我们需要把一个词编码成向量。最简单的就是one-hot的表示方法。如下图所示：
在这里插入图片描述
python代码，比如

import numpy as npword_array = ['apple', 'kiwi', 'mango']
word_dict = {'apple': 0, 'banana': 1, 'orange': 2, 'grape': 3, 'melon': 4, 'peach': 5, 'pear': 6, 'kiwi': 7, 'plum': 8, 'mango': 9}# 创建一个全为0的矩阵
one_hot_matrix = np.zeros((len(word_array), len(word_dict)))# 对每个单词进行one-hot编码
for i, word in enumerate(word_array):word_index = word_dict[word]one_hot_matrix[i, word_index] = 1print(one_hot_matrix)

输出:

[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]   #这就是apple的one-hot编码[0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]    #这就是kiwi的one-hot编码[0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]    #这就是mango的one-hot编码

行表示每个单词，列表示语料库，每个列对应一个语料单词，也就是特征列

pytorch rnn

以下是pytorch使用rnn最简单的一个例子，用来熟悉pytorch rnn
注意pytorch的rnn并不处理隐藏层到输出层的逻辑，他只是关注隐藏层的输出结果，如果需要将隐藏层转换为结果输出，可以在添加一个全连接层即可，这里暂不关注这部分

#%%import torch
import torch.nn as nn# 定义输入数据
input_size = 10   # 输入特征的维度
sequence_length = 5   # 时间步个数
batch_size = 3   # 批次大小# 创建随机输入数据
#输入数据的维度为(sequence_length, batch_size, input_size)，表示有sequence_length个时间步，
#每个时间步有batch_size个样本，每个样本的特征维度为input_size。
input_data = torch.randn(sequence_length, batch_size, input_size)
print("输入数据",input_data)
# 定义RNN模型
# 定义RNN模型时，我们指定了输入特征的维度input_size、隐藏层的维度hidden_size、隐藏层的层数num_layers等参数。
# batch_first=False表示输入数据的维度中批次大小是否在第一个维度，我们在第二个维度上。
rnn = nn.RNN(input_size, hidden_size=20, num_layers=1, batch_first=False)
"""
在前向传播过程中，我们将输入数据传递给RNN模型，并得到输出张量output和最后一个时间步的隐藏状态hidden。
输出张量的大小为(sequence_length, batch_size, hidden_size)，表示每个时间步的隐藏层输出。
最后一个时间步的隐藏状态的大小为(num_layers, batch_size, hidden_size)。
"""
# 前向传播，第二个参数h0未传递，默认为0
output, hidden = rnn(input_data)
print("最后一个隐藏层",hidden.shape)
print("输出所有隐藏层",output.shape)# 打印每个隐藏层的权重和偏置项
# weight_ih表示输入到隐藏层的权重，weight_hh表示隐藏层到隐藏层的权重，注意这里使出是转置的结果。
# bias_ih表示输入到隐藏层的偏置，bias_hh表示隐藏层到隐藏层的偏置。
for name, param in rnn.named_parameters():if 'weight' in name or 'bias' in name:print(name, param.data)

输出

最后一个隐藏层 torch.Size([1, 3, 20])
输出所有隐藏层 torch.Size([5, 3, 20])

在这里插入图片描述

权重为什么是10行20列参数卷积神经网络的原理
数据最外层的行的长度决定了前向传播时间序列的个数。
这个input_size是输入数据的维度，比如一个单词转换为one-hot后列就是字典的特征长度
这个hidden_size是隐藏层神经元的个数也就是最终隐藏层输入的特征数。
num_layer中是堆叠的多层隐藏层。

常见的结构

RNN（循环神经网络）常用的结果类型包括单输入单输出、单输入多输出、多输入多输出和多输入单输出。下面我将详细解释每种结果类型以及它们的应用场景。

单输入单输出（Single Input Single Output，SISO）：这是最常见的RNN结果类型，输入是一个序列，输出是一个单一的预测值。例如，给定一段文本，预测下一个词语；给定一段时间序列数据，预测下一个时间步的值。这种结果类型适用于许多序列预测任务，如语言模型、时间序列预测等。
举个例子，假设我们要预测房屋价格，可能会使用多个特征，如房屋的面积、卧室数量、浴室数量等。这样，我们可以将这些特征组合成一个特征向量作为模型的输入，而模型的输出则是预测的房屋价格。因此，线性回归可以用来解决多特征到单个输出的问题，因此被称为单输入单输出模型。
单输入多输出（Single Input Multiple Output，SIMO）：这种结果类型中，输入是一个序列，但输出是多个预测值。例如，给定一段文本，同时预测下一个词语和该词语的词性标签；给定一段音频信号，同时预测语音情感和说话者身份。这种结果类型适用于需要同时预测多个相关任务的情况。
多输入多输出（Multiple Input Multiple Output，MIMO）：这种结果类型中，有多个输入序列和多个输出序列。例如，在机器翻译任务中，输入是源语言的句子序列，输出是目标语言的句子序列；在对话系统中，输入是用户的问题序列，输出是系统的回答序列。这种结果类型适用于需要处理多个输入和输出序列的任务，mimo有两种一种输入和输出个数相等和不相等。
多输入单输出（Multiple Input Single Output，MISO）：这种结果类型中，有多个输入序列，但只有一个输出。例如，在图像描述生成任务中，输入是图像序列，输出是对图像的描述；在自动驾驶中，输入是多个传感器的数据序列，输出是车辆的控制命令。这种结果类型适用于需要将多个输入序列映射到单个输出序列的任务。

线性回归是一种简单的机器学习模型，它的输入可以是多个特征，但是输出只有一个。这里的“单输入单输出”是指模型的输入是一个向量（多个特征的组合），输出是一个标量（一个预测值）。在线性回归中，我们通过对输入特征进行线性组合，得到一个预测值。因此，尽管输入可以是多个元素，但输出只有一个。

在这里插入图片描述

双向循环神经网络

普通的RNN只能依据之前时刻的时序信息来预测下一时刻的输出，但在有些问题中，当前时刻的输出不仅和之前的状态有关，还可能和未来的状态有关系。

比如预测一句话中缺失的单词不仅需要根据前文来判断，还需要考虑它后面的内容，真正做到基于上下文判断。

BRNN有两个RNN上下叠加在一起组成的，输出由这两个RNN的状态共同决定。
在这里插入图片描述
先对图片和公式中的符号集中说明，需要时方便查看：

$h_t^1$ 表示t 时刻，Cell1 中从左到右获得的 memory(信息);
$W^1,U^1$ 表示图中 Cell1 的可学习参数,W是隐藏层的参数U是输入层参数；
$f_1$ 表示 Cell1 的激活函数；
$h_t^2$ 表示 t 时刻，Cell2 中从右到左获得的 memory;
$W^2$ , $U^2$ 表示图中 Cell2 的可学习参数；
$f_2$ 表示 Cell2 的激活函数；
$V$ 是输出层的参数，可以理解为 MLP;
$f_3$ 是输出层的激活函数；
$y_t$ 是 t 时刻的输出值；

在图1-1中，对于 t 时刻的输入 $x_t$ ，可以结合从左到右的 memory $h^1_{t-1}$ , 获得当前时刻的 memory $h^1_t$ :
在这里插入图片描述
同理也可以结合从右到左的 memory $h^2_{t−1}$ , 获得当前时刻的 memory $h^2_t$ :

然后将 $h^1_t$ 和 $h^2_t$ 首尾级联在一起通过输出层网络 $V$ 得到输出 $y_t$ :

这样对于任何一个时刻 t 可以看到从不同方向获得的 memory, 使模型更容易优化，加速了模型的收敛速度。

pytorch rnn

下面是一个使用PyTorch中nn.RNN模块实现双向RNN的最简单例子：

import torch
import torch.nn as nn# 定义输入数据
input_size = 10   # 输入特征的维度
sequence_length = 5   # 时间步个数
batch_size = 3   # 批次大小# 创建随机输入数据
input_data = torch.randn(sequence_length, batch_size, input_size)# 定义双向RNN模型
rnn = nn.RNN(input_size, hidden_size=20, num_layers=1, batch_first=False, bidirectional=True)# 前向传播
output, hidden = rnn(input_data)# 输出结果
print("输出张量大小：", output.size())
print("最后一个时间步的隐藏状态大小：", hidden.size())

输出

输出张量大小： torch.Size([5, 3, 40])
最后一个时间步的隐藏状态大小： torch.Size([2, 3, 20])

这个例子中，输入数据的维度和之前的例子相同。

定义双向RNN模型时，我们在RNN模型的参数中设置bidirectional=True，表示我们希望构建一个双向RNN模型。

在前向传播过程中，我们将输入数据传递给双向RNN模型，并得到输出张量output和最后一个时间步的隐藏状态hidden。输出张量的大小为(sequence_length, batch_size, hidden_sizenum_directions)，其中num_directions为2，表示正向和反向两个方向。最后一个时间步的隐藏状态的大小为(num_layersnum_directions, batch_size, hidden_size)。

双向RNN可以同时利用过去和未来的信息，可以更好地捕捉到时间序列数据中的特征。你可以根据需要调整输入数据的大小、RNN模型的参数等进行实验。

双向RNN的输出通常是正向和反向隐藏状态的组合，它们被存储在一个数组中。具体来说，如果使用PyTorch中的nn.RNN模块实现双向RNN，输出张量的形状将是(sequence_length,batch_size, hidden_size * 2)，其中hidden_size * 2表示正向和反向隐藏状态的大小之和。这个输出张量包含了每个时间步上正向和反向隐藏状态的信息，可以在后续的任务中使用。
双向rnn的最后的隐藏层大小是(2, batch_size, hidden_size)

Deep RNN(多层 RNN)

前文我们介绍的 RNN，是数据在时间维度上的变换。不论时间维度多长，只有一个 RNN 模块, 即只有一组待学习参数 (W, U)，属于单层 RNN。deep RNN 也叫做多层 RNN，顾名思义它由多个 RNN 级联组成，是输入数据在空间维度上变换。如图, 这是 L 层的 RNN 架构。每一层是一个单独的RNN，共有L个RNN。
在这里插入图片描述

在每一层的水平方向，只有一组可学习参数，如第 $l$ 层的参数 $W^lU^l$ 。水平方向是数据沿着时间维度变换，变换机制与单个 RNN 的机制一致,具体参考式上一篇文章。在每个时刻 t 的垂直方向，共有 L 组可学习参数( $W^i,U^i$ ) i = 1, 2, …, L。在第 $l$ 层的第 t 时刻 Cell 的输入数据来自 2 个方向：一个是来自上一层的输出 $h^{l−1}_t$ :
在这里插入图片描述
一个是来自第 $l$ 层， $t - 1$ 时刻的 memory 数据 $h^l_{t−1}$ :

所以 Cell 的输出 $h^l_t$ ：

本质上，Deep RNN 在单个 RNN 的基础上，将当前时刻的输入修改为上层的输出。这样 RNN 便完成了空间上的数据变换。额外提一下：DeepRNN的每一层也可以是一个双向RNN。

pytorch rnn

下面是一个使用nn.RNN模块实现多层RNN的最简单例子：

import torch
import torch.nn as nn# 定义输入数据和参数
input_size = 5
hidden_size = 10
num_layers = 2
batch_size = 3
sequence_length = 4# 创建输入张量
input_tensor = torch.randn(sequence_length, batch_size, input_size)# 创建多层RNN模型
rnn = nn.RNN(input_size, hidden_size, num_layers)# 前向传播
output, hidden = rnn(input_tensor)# 打印输出张量和隐藏状态的大小
print("Output shape:", output.shape)
print("Hidden state shape:", hidden.shape)

在上面的例子中，我们首先定义了输入数据的维度、RNN模型的参数（输入大小、隐藏状态大小和层数），以及批次大小和序列长度。然后，我们创建了一个输入张量，其形状为(sequence_length, batch_size, input_size)。接下来，我们使用nn.RNN模块创建一个多层RNN模型，其中包含两层。最后，我们通过将输入张量传递给RNN模型的前向方法来进行前向传播，并打印输出张量和隐藏状态的大小。

请注意，输出张量的形状为(sequence_length, batch_size, hidden_size)，其中sequence_length和batch_size保持不变，hidden_size是隐藏状态的大小。隐藏状态的形状为(num_layers, batch_size, hidden_size)，其中num_layers是RNN模型的层数。

RNN缺点

梯度爆炸和消失问题

实践中前面介绍的几种RNNs并不能很好的处理较长的序列，RNN在训练中很容易发生梯度爆炸和梯度消失，这导致梯度不能在较长序列中一直传递下去，从而使RNN无法捕捉到长距离的影响。

通常来说，梯度爆炸更容易处理一些。因为梯度爆炸的时候，我们的程序会收到NaN错误。我们也可以设置一个梯度阈值，当梯度超过这个阈值的时候可以直接截取。

梯度消失更难检测，而且也更难处理一些。总的来说，我们有三种方法应对梯度消失问题：

1、合理的初始化权重值。初始化权重，使每个神经元尽可能不要取极大或极小值，以躲开梯度消失的区域。

2、使用relu代替sigmoid和tanh作为激活函数。。

3、使用其他结构的RNNs，比如长短时记忆网络（LTSM）和Gated Recurrent Unit（GRU），这是最流行的做法

短期记忆

假如需要判断用户的说话意图（问天气、问时间、设置闹钟…），用户说了一句“what time is it？”我们需要先对这句话进行分词：
在这里插入图片描述
然后按照顺序输入 RNN ，我们先将 “what”作为 RNN 的输入，得到输出「01」

然后，我们按照顺序，将“time”输入到 RNN 网络，得到输出「02」。

这个过程我们可以看到，输入 “time” 的时候，前面 “what” 的输出也产生了影响（隐藏层中有一半是黑色的）。
在这里插入图片描述
以此类推，前面所有的输入都对未来的输出产生了影响，大家可以看到圆形隐藏层中包含了前面所有的颜色。如下图所示：

当我们判断意图的时候，只需要最后一层的输出「05」，如下图所示：

RNN 的缺点也比较明显
在这里插入图片描述
通过上面的例子，我们已经发现，短期的记忆影响较大（如橙色区域），但是长期的记忆影响就很小（如黑色和绿色区域），这就是 RNN 存在的短期记忆问题。

RNN 有短期记忆问题，无法处理很长的输入序列
训练 RNN 需要投入极大的成本

RNN 的优化算法

LSTM – 长短期记忆网络

RNN 是一种死板的逻辑，越晚的输入影响越大，越早的输入影响越小，且无法改变这个逻辑。
LSTM 做的最大的改变就是打破了这个死板的逻辑，而改用了一套灵活了逻辑——只保留重要的信息。
简单说就是：抓重点！
在这里插入图片描述
举个例子，我们先快速的阅读下面这段话：

当我们快速阅读完之后，可能只会记住下面几个重点：

LSTM 类似上面的划重点，他可以保留较长序列数据中的「重要信息」，忽略不重要的信息。这样就解决了 RNN 短期记忆的问题。

原理

原始RNN的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。那么如果我们再增加一个门（gate）机制用于控制特征的流通和损失，即c，让它来保存长期的状态，这就是长短时记忆网络(Long Short Term Memory，LSTM)。
在这里插入图片描述
新增加的状态c，称为单元状态。我们把LSTM按照时间维度展开：
其中图像上的标识 $\sigma$ 标识使用sigmod激活到[0-1], $\tanh$ 激活到[-1,1]
⨀ 是一个数学符号，表示逐元素乘积（element-wise product）或哈达玛积（Hadamard product）。当两个相同维度的矩阵、向量或张量进行逐元素相乘时，可以使用 ⨀ 符号来表示。

例如，对于两个向量 [a1,a2,a3] ⨀ [b1, b2, b3]=[a1b1,a2b2,a3*b3]，它们的逐元素乘积可以表示
在这里插入图片描述
可以看到在t时刻，

LSTM的输入有三个：当前时刻网络的输出值 $x_t$ 、上一时刻LSTM的输出值 $h_{t−1}$ 、以及上一时刻的记忆单元向量 $c_{t−1}$ ；

LSTM的输出有两个：当前时刻LSTM输出值 $h_t$ 、当前时刻的隐藏状态向量 $h_t$ 、和当前时刻的记忆单元状态向量 $c_t$ 。

注意：记忆单元c在LSTM 层内部结束工作，不向其他层输出。LSTM的输出仅有隐藏状态向量h。

LSTM 的关键是单元状态，即贯穿图表顶部的水平线，有点像传送带。这一部分一般叫做单元状态（cell state）它自始至终存在于LSTM的整个链式系统中。
在这里插入图片描述

遗忘门

$f_t$ 叫做遗忘门，表示 $C_{t−1}$ 的哪些特征被用于计算 $C_t$ 。 $f_t$ 是一个向量，向量的每个元素均位于(0~1)范围内。通常我们使用 sigmoid 作为激活函数，sigmoid 的输出是一个介于于(0~1)区间内的值，但是当你观察一个训练好的LSTM时，你会发现门的值绝大多数都非常接近0或者1，其余的值少之又少。
在这里插入图片描述

输入门

$C_t$ 表示单元状态更新值，由输入数据 $x_t$ 和隐节点 $h_{t−1}$ 经由一个神经网络层得到，单元状态更新值的激活函数通常使用tanh。 $i_t$ 叫做输入门，同 $f_t$ 一样也是一个元素介于(0~1)区间内的向量，同样由 $x_t$ 和 $h_{t−1}$ 经由sigmoid激活函数计算而成
在这里插入图片描述

输出门

最后，为了计算预测值 $y^t$ 和生成下个时间片完整的输入，我们需要计算隐节点的输出 $h_t$ 。
在这里插入图片描述

GRU

Gated Recurrent Unit – GRU 是 LSTM 的一个变体。他保留了 LSTM 划重点，遗忘不重要信息的特点，在long-term 传播的时候也不会被丢失。

LSTM 的参数太多，计算需要很长时间。因此，最近业界又提出了 GRU（Gated RecurrentUnit，门控循环单元）。GRU 保留了 LSTM使用门的理念，但是减少了参数，缩短了计算时间。

相对于 LSTM 使用隐藏状态和记忆单元两条线，GRU只使用隐藏状态。异同点如下：
在这里插入图片描述
GRU的计算图

GRU计算图，σ节点和tanh节点有专用的权重，节点内部进行仿射变换（“1−”节点输入x，输出1 − x）

GRU 中进行的计算由上述 4 个式子表示（这里 xt和 ht−1 都是行向量），如图所示，GRU 没有记忆单元，只有一个隐藏状态h在时间方向上传播。这里使用r和z共两个门（LSTM 使用 3 个门），r称为 reset 门，z称为 update 门。

r（reset门）**决定在多大程度上“忽略”过去的隐藏状态。根据公式2.3，如果r是 0，则新的隐藏状态h~仅取决于输入 $x_t$ 。也就是说，此时过去的隐藏状态将完全被忽略。

z（update门）**是更新隐藏状态的门，它扮演了 LSTM 的 forget 门和input 门两个角色。公式2.4 的(1−z)⊙ $h_{t−1}$ 部分充当 forget 门的功能，从过去的隐藏状态中删除应该被遗忘的信息。z⊙ $h^~$ 的部分充当 input 门的功能，对新增的信息进行加权。