\((3)\)
a.看代码,可以知道就是把\(\text{softmax}\)之后的值当成一个概率分布,然后在里面进行随机抽样;这个样子当然会让困惑度增加,因为选择多了很多
b.这个题干的意思就是让\(\text{softmax}\)之后的概率分布的值进行变化,大的更大,小的更小,从而逼近选择概率最大的方式,困惑度当然会减小
\((5)\)
这里的解答的代码是每一个批次都直接创建一个新的state
(看代码),所以运行时间当然会减小,困惑度当然会增加;但是我觉得题目的意思是不创建新的隐状态而是只取消梯度分离,我觉得这个样子运行时间会增加,而且发生数值问题,困惑度不一定要下降