深度学习精选笔记（7）前向传播、反向传播和计算图-编程知识

学习参考：

动手学深度学习2.0
Deep-Learning-with-TensorFlow-book
pytorchlightning

①如有冒犯、请联系侵删。
②已写完的笔记文章会不定时一直修订修改(删、改、增)，以达到集多方教程的精华于一文的目的。
③非常推荐上面（学习参考）的前两个教程，在网上是开源免费的，写的很棒，不管是开始学还是复习巩固都很不错的。

深度学习回顾，专栏内容来源多个书籍笔记、在线笔记、以及自己的感想、想法，佛系更新。争取内容全面而不失重点。完结时间到了也会一直更新下去，已写完的笔记文章会不定时一直修订修改(删、改、增)，以达到集多方教程的精华于一文的目的。所有文章涉及的教程都会写在开头、一起学习一起进步。

前向传播用于计算模型的预测输出，反向传播用于根据预测输出和真实标签之间的误差来更新模型参数。

前向传播和反向传播是神经网络训练中的核心步骤，通过这两个过程，神经网络能够学习如何更好地拟合数据，提高预测准确性。

一、计算图

计算图（Computational Graph）是一种图形化表示方法，用于描述数学表达式中各个变量之间的依赖关系和计算流程。在深度学习和机器学习领域，计算图常用于可视化复杂的数学运算和函数计算过程，尤其是在反向传播算法中的梯度计算过程中被广泛应用。

计算图通常包括两种节点：

计算节点（Compute Nodes）：这些节点表示数学运算，如加法、乘法等。计算节点接受输入，并产生输出。
数据节点（Data Nodes）：这些节点表示数据或变量，如输入数据、权重、偏置等。

通过连接计算节点和数据节点的边，构建了一个有向图，其中每个节点表示一个操作，边表示数据流向。计算图可以帮助理解复杂的计算过程，特别是在深度学习中涉及大量参数和运算的情况下。

二、前向传播

前向传播（forward propagation或forward pass）指的是：按顺序（从输入层到输出层）计算和存储神经网络中每层的结果。

前向传播（Forward Propagation）：

定义：前向传播是指输入数据通过神经网络模型的各层，逐层进行计算并传递至输出层的过程。
作用：在前向传播过程中，输入数据经过神经网络的权重和激活函数的计算，最终得到模型的预测输出。
目的：前向传播的目的是计算模型对输入数据的预测值，为后续的损失函数计算和反向传播提供基础。

1.前向传播的计算图

假设单隐藏层神经网络中，输入样本是 𝐱∈ℝ d，并且隐藏层不包括偏置项。这里的中间变量是：
在这里插入图片描述
其中 𝐖(1)∈ℝℎ×𝑑 是隐藏层的权重参数。将中间变量 𝐳∈ℝℎ 通过激活函数 𝜙 后，得到长度为 ℎ 的隐藏激活向量是：

隐藏变量 𝐡也是一个中间变量。假设输出层的参数只有权重 𝐖(2)∈ℝ𝑞×ℎ，可以得到输出层变量，它是一个长度为 𝑞 的向量：
在这里插入图片描述
假设损失函数为 𝑙，样本标签为 𝑦，可以计算单个数据样本的损失项，

根据 𝐿2 正则化的定义，给定超参数 𝜆 ，正则化项为

其中矩阵的Frobenius范数是将矩阵展平为向量后应用的 𝐿2范数。最后，模型在给定数据样本上的正则化损失为：
在这里插入图片描述
该函数J就是目标函数。

绘制计算图有助于可视化计算中操作符和变量的依赖关系。

与上述简单网络相对应的计算图，其中正方形表示变量，圆圈表示操作符。左下角表示输入，右上角表示输出。注意显示数据流的箭头方向主要是向右和向上的。
在这里插入图片描述

三、反向传播

反向传播（Backpropagation）：

定义：反向传播是指通过计算损失函数对模型参数的梯度（梯度是一个由偏导数组成的向量，表示函数在某一点处的变化率或者斜率方向、也就是在每个自变量方向上的偏导数），从输出层向输入层传播梯度的过程。
作用：在反向传播过程中，根据损失函数计算模型参数的梯度，然后利用梯度下降等优化算法更新模型参数，以减小损失函数的值。
目的：反向传播的目的是根据模型预测与真实标签的误差，调整神经网络中每个参数的值，使模型能够更好地拟合训练数据，并提高在新数据上的泛化能力。

反向传播（backward propagation或backpropagation）指的是计算神经网络参数梯度的方法。简言之，该方法根据微积分中的链式规则，按相反的顺序从输出层到输入层遍历网络。该算法存储了计算某些参数梯度时所需的任何中间变量（偏导数）。假设有函数 𝖸=𝑓(𝖷) 和 𝖹=𝑔(𝖸) ，其中输入和输出 𝖷,𝖸,𝖹 是任意形状的张量。利用链式法则，可以计算 𝖹 关于 𝖷 的导数：

在这里插入图片描述
使用 prod 运算符在执行必要的操作（如换位和交换输入位置）后将其参数相乘。对于向量，这很简单，它只是矩阵-矩阵乘法。

在前向传播的计算图中，单隐藏层简单网络的参数是 𝐖(1) 和 𝐖(2) 。反向传播的目的是计算梯度 ∂𝐽/∂𝐖(1) 和 ∂𝐽/∂𝐖(2) 。为此，应用链式法则，依次计算每个中间变量和参数的梯度。计算的顺序与前向传播中执行的顺序相反，因为需要从计算图的结果开始，并朝着参数的方向努力。第一步是计算目标函数 𝐽=𝐿+𝑠 相对于损失项 𝐿 和正则项 𝑠 的梯度。

这里为什么等于1？因为单隐藏层简单网络的最后一层上面是
在这里插入图片描述
根据链式法则计算目标函数关于输出层变量 𝐨 的梯度：

计算正则化项相对于两个参数的梯度：

在这里插入图片描述
计算最接近输出层的模型参数的梯度 ∂𝐽/∂𝐖(2)∈ℝ𝑞×ℎ 。使用链式法则得出：

在这里插入图片描述
为了获得关于 𝐖(1)的梯度，需要继续沿着输出层到隐藏层反向传播。关于隐藏层输出的梯度 ∂𝐽/∂𝐡∈ℝℎ 由下式给出：

由于激活函数 𝜙 是按元素计算的，计算中间变量 𝐳的梯度 ∂𝐽/∂𝐳∈ℝℎ 需要使用按元素乘法运算符，用 ⊙ 表示：
在这里插入图片描述
最后，可以得到最接近输入层的模型参数的梯度 ∂𝐽/∂𝐖(1)∈ℝℎ×𝑑 。根据链式法则，我们得到：

四、训练神经网络

在训练神经网络时，前向传播和反向传播相互依赖。

对于前向传播，沿着依赖的方向遍历计算图并计算其路径上的所有变量。然后将这些用于反向传播，其中计算顺序与计算图的相反。

以上述简单网络为例：
正则项：

在这里插入图片描述
反向传播中计算J对W(2)的梯度公式：

反向传播中计算J对W(1)的梯度公式：

一方面，在前向传播期间计算正则项取决于模型参数𝐖(1)和 𝐖(2)的当前值。它们是由优化算法根据最近迭代的反向传播给出的。另一方面，反向传播期间参数的梯度计算，取决于由前向传播给出的隐藏变量𝐡的当前值。

因此，在训练神经网络时，在初始化模型参数后，交替使用前向传播和反向传播，利用反向传播给出的梯度来更新模型参数。

注意，反向传播重复利用前向传播中存储的中间值，以避免重复计算。 带来的影响之一是需要保留中间值，直到反向传播完成。这也是训练比单纯的预测需要更多的内存（显存）的原因之一。此外，这些中间值的大小与网络层的数量和批量的大小大致成正比。 因此，使用更大的批量来训练更深层次的网络更容易导致内存不足（out of memory）错误。