语言建模(Language Model,LM)
语言建模是提高机器语言智能的主要方法之一。一般来说,LM旨在对词序列的生成概率进行建模,以预测未来失)tokens的概率。
统计语言模型-->神经语言模型-->预训练语言模型-->大模型
统计语言模型(Statistical Language Model,SLM)
基于统计学习方法开发,例如根据最近的上下文预测下一个词。统计语言模型的一个经典例子是n-gram模型。在n-gram模型中,一个词出现的概率只依赖于它前面的n-1个词。
例如,一个三元模型(trigram model)会使用以下的公式来计算序列中某个词的概率:
[ P(w_i | w_{i-2}, w_{i-1}) ]
这里只考虑了前两个词对第三个词出现概率的影响。
神经语言模型(Neural Language Model,NLM):
是使用神经网络来预测词序列的概率分布的模型。与传统的统计语言模型(如n-gram模型)使用固定窗口大小的词来预测下一个词的概率不同,神经语言模型可以考虑更长的上下文或整个句子的信息。
循环神经网络(RNN):包括LSTM和GRU等变体,能够处理变长的序列数据。
分布式表示:在神经语言模型中,每个单词通常被编码为一个实数值向量,这些向量也被称为词嵌入(wordembeddings)。词嵌入可以捕捉词与词之间的语义和语法关系。