为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷,将词表示成一个低维的实数向量,且相似的词的向量表示是相近的,可以用向量之间的距离来衡量相似度。
N-gram 统计语言模型是用来计算句子概率的概率模型,即某一个词的出现由其前面每一个词出现的概率决定。假设一个长度为N的句子,句子 S=(X1,...,XN),那么这个句子的概率(也就是这 N 个词共同出现的概率)如下:
N的取值 | 名称 | 含义 |
1 | Unigram | 当前词出现的概率仅仅与自身相关 |
2 | Bigram | 当前词出现的概率仅仅与前面的1个词相关 |
3 | Trigram | 当前词出现的概率仅仅与前面的2个词相关 |
... | ... | ... |
N | N-gram | 当前词出现的概率仅仅与前面的(N-1)个词相关 |
例如,长度为4的序列X1, X2, X3, X4 在Ungram、Bigram和Trigram中的概率分别为:
P(X1, X2, X3, X4) = P(X1)P(X2)P(X3)P(X4)
P(X1, X2, X3, X4) = P(X1)P(X2|X1)P(X3|X2)P(X4|X3)
P(X1, X2, X3, X4) = P(X1)P(X2|X1)P(X3|X1, X2)P(X4|X2, X3)
随着 N 的取值越大,N-gram 模型在理论上越精确,但是也越复杂,需要的计算量和训练语料数据量也就越大,并且精度提升的不够明显,所以在实际的任务中很少使用 n>3 的语言模型。
例如,使用一个含有三句话的微型语料库,而且需要在这三句话的前后分别加上开始符
<BOS>
和结束符<EOS>
(目的是为了让以某一词为条件的所有概率加起来是 1,从而保证这确实是一个合法的概率分布)接下来我们来看语料:<BOS>我爱你<EOS> <BOS>我爱她<EOS> <BOS>她爱你<EOS>
BOS:Begining Of Sequence,代表序列开始。 EOS:End Of Sequence,代表序列结束。
利用 Bi-gram 计算各个词出现的概率:
- 单词 "<BOS>" 出现的次数:3次
- 单词 "我" 出现的次数:2次
- 单词 "爱" 出现的次数:3次
- 单词 "你" 出现的次数:2次
- 单词 "她" 出现的次数:2次
- 单词 "<EOS>" 出现的次数:3次
- 二元组 "我爱" 出现的次数:2次
- 二元组 "爱你" 出现的次数:2次
- 二元组 "她爱" 出现的次数:1次
- 二元组 "爱她" 出现的次数:1次
- 二元组 "<BOS>我" 出现的次数:2次
- 二元组 "<BOS>她" 出现的次数:1次
- 二元组 "你<EOS>" 出现的次数:2次
- 二元组 "她<EOS>" 出现的次数:1次
利用 Bi-gram 计算相邻两个词先后出现的概率:
- P(我|
<BOS>
) = Count(<BOS>我) / Count(<BOS>) = 2/3;- P(她|
<BOS>
) = Count(<BOS>她) / Count(<BOS>) = 1/3;- P(爱|
我
) = Count(我爱) / Count(我) = 1;- P(
<EOS>
|你) = Count(你<EOS>) / Count(你) = 1;- P(你|
爱
) = Count(爱你) / Count(爱) = 2/3;- P(她|爱) = Count(爱她) / Count(爱) = 1/3;
- P(爱|
她
) = Count(她爱) / Count(她) = 1/2;- P(
<EOS>
|她) = Count(她<EOS>) / Count(她) = 1/2.
这样我们就完成了 Bi-gram 各个概率值的计算,整个句子的概率就是挑选出对应的概率相乘即可。
- P(
<BOS>
我爱你<EOS>
) = P(我|<BOS>
) × P(爱|我
) × P(你|爱
) × P(<EOS>
|你) = 2/3 × 1 × 2/3 ×1 = 4/9- P(
<BOS>
我爱她<EOS>
) = P(我|<BOS>
) × P(爱|我
) × P(她|爱
) × P(<EOS>
|你) = 2/3 × 1 × 1/3 ×1 = 2/9- P(
<BOS>
她爱你<EOS>
) = P(她|<BOS>
) × P(爱|她
) × P(你|爱
) × P(<EOS>
|你) = 1/3 × 1 × 1 × 2/3 = 2/9
N-gram 语言模型使用统计频次来近似概率值,可能会出现数据稀疏问题:
- 如果分子为0,估计的概率值为0,由于连乘的方式会导致最终计算出句子的概率值为0;
- 如果分母为0,分母为0,计算的公式将没有任何意义