语言模型和 RNN 笔记 (CS224N-4)-编程知识

语言模型和 RNN 笔记 (CS224N-4)

news/2025/3/10 9:35:37/文章来源:https://www.cnblogs.com/mianmaner/p/18760044

语言模型定义

(1)语言模型任务是根据给定的单词序列计算下一个单词的概率分布，完成这样的任务的系统就被称作语言模型

(2)也可以认为语言模型是一个为文本分配概率的系统，例如文本 \(x^{(1)},\cdots,x^{(T)}\) 的概率是

n-gram语言模型

(1)一个n-gram是由n个连续单词组成的一块文本，收集不同n-gram的频率统计数据，并使用这些数据预测下一个单词

(2)思路

①首先我们做一个Markov假设， \(x^{(t+1)}\) 仅取决于其前面的n-1个单词

②如何得到这些n-gram和(n-1)-gram的概率：

在大型文本语料库计算它们，统计概率近似

\[\approx\frac{count(x^{(t+1),x{(t)},\cdots,x^{(t-n+2)}})}{count(x^{(t)},\cdots,x^{(t-n+2)})} \]

(3)存在的问题：

稀疏性问题：当我们需要的预测条件文本根本没有出现在语料库中，解决方法如下
①添加小的\(\sigma\)扰动因子给每一个语料库中的单词（smoothing）
②以需要文本的前一部分作为预测条件（backoff）
存储问题：需要存储语料库中所有n-gram的数量，增加n或增加语料库都会增加模型大小
当生成长文本时，文本虽然语法连贯但会变得牛头不对马嘴

基于固定窗口的神经网络语言模型

①改进：没有稀疏性问题，不需要存储所有的n-gram
②问题：窗口太小，需要放大，但是放大窗口也会放大模型

RNN

(1)RNN全称：Recurrent Neural NetWorks（递归神经网络）

(2)核心思路：反复的应用相同的权重

(3)优缺点：

①优点：可以处理任何长度的输入，对于较长的输入上下文，模型大小不会增加
②缺点：递归计算很慢，很难从许多步骤后访问信息

(4)前向传播：

①获取一个大的文本语料库，它是一个单词序列
②将单词序列输入RNN模型，计算每一个步骤t的输出分布，上一步的输出是下一步的输入
③步骤t上的损失函数是预测的概率分布 \(\widehat y^{(t)}\) 和真正的下一个单词的概率分布 \(y^{(t)}\) （ \(x^{(t+1)}\) 的one-hot编码）之间的交叉熵

\[J^{(t)}(\theta)=CE(y^{(t)},\widehat y^{(t)})=-\displaystyle\sum_{w \in V}y_w^{(t)}log\widehat y_w^{(t)}=-logy_{x_{t+1}}^{(t)} \]

④将其平均化，已获得整个训练集的整体损失