关于RNN (循环神经网络）相邻采样为什么在每次迭代之前都需要将参数detach-编程知识

关于RNN (循环神经网络）相邻采样为什么在每次迭代之前都需要将参数detach

news/2025/1/22 10:55:51/文章来源:https://www.cnblogs.com/gongzb/p/18685280

转自：https://www.cnblogs.com/catnofishing/p/13287322.html

detach到底有什么作用呢

首先要明确一个意识：pytorch是动态计算图，每次backward后，本次计算图自动销毁，但是计算图中的节点都还保留。

方向传播直到叶子节点为止，否者一直传播，直到找到叶子节点

我的答案是有用，但根本不是为了防止梯度开销过大（注释真的害人不浅啊），detach的真正作用是梯度节流，防止反向传播传播到隐藏状态时，因为上次小批量方向传播计算图的销毁导致继续向下传播而引起报错。啥意思呢，我以连续两次小批量迭代举例：

第一次小批量迭代，H0 是叶子节点，因为他没经过任何计算。剩余H1是非叶子节点。在第一次方向传播后，第一次的计算图已经销毁，但是节点数据仍然存在。

第二次小批量迭代，第一次批量迭代的最后时间节点的隐藏状态H2 成为第二批次小的初始隐藏状态（ H0(第二次) = H2(第一次) ），这样第二次在方向传播时，当传播到H0时，发现H0 是分支节点(grad_fn+requires_grad) ,就会继续向下传播直到找到叶子节点为止，但是可惜的是H0 之后的计算图（即第一次小批量的计算图）已经销毁，传播发生中断，因此就会导致出错。而使用detach之后，H0 自然与上次的计算图没有任何关系，H0自身变为叶子节点，这样传播到H0时自然就结束了。

好了，验证我所说的吧。
- 首先，不使用detach，会导致传播报错
将detach 操作删除

运行结果：