NLP 词嵌入向量即word embedding原理详解

文章目录

  • 1. 前言
  • 2. 目标
  • 3. CBOW
  • 4. 训练结果
  • 5. 如何使用
  • 6. 延伸
  • 7. 参考


1. 前言

现在 NLP 相关的技术大概率会接触到词向量、word embedding(词嵌入)诸如此类的术语。然后网上一搜,哦,有一个 Word2Vec 的技术,能够把单词表示成一种低维向量,不仅可以方便计算机的计算、还可以捕捉到单词之间的语义关系,哦,真棒,用了都说好!

那么请仔细想想,这个词向量是怎么来的?为什么可以表示单词之间的语义关系?

为了弄清楚这件事情,我们不妨看一下 Word2Vec 这个技术的背景和原理。

2. 目标

Word2Vec 是由 Tomas Mikolov 等人在 2013 年提出的论文 《Efficient Estimation of Word Representations in Vector Space》,并由 Google 在开源工具包中实现。它基于分布式假设,即相似上下文中出现的单词有相似的含义,通过学习上下文信息来生成单词的向量表示,称为 word embedding。

如果有一个句子 “you are a good man”,我希望有计算机语言表示这句话,应该如何表示?

早期一个通用的方法是,我们建立一个词典,词典就包含这5个单词 you, are, a, good, man 并对词典编号,如 the 是第0位,is 是第3位,那么上面这句话则表示为如下的结果:
y o u = [ 1 , 0 , 0 , 0 , 0 ] you =[1, 0, 0, 0, 0] you=[1,0,0,0,0]

a r e = [ 0 , 1 , 0 , 0 , 0 ] are =[0,1,0,0,0] are=[0,1,0,0,0]

a = [ 0 , 0 , 1 , 0 , 0 ] a =[0,0,1,0,0] a=[0,0,1,0,0]

g o o d = [ 0 , 0 , 0 , 1 , 0 ] good =[0,0,0,1,0] good=[0,0,0,1,0]

m a n = [ 0 , 0 , 0 , 0 , 1 ] man =[0,0,0,0,1] man=[0,0,0,0,1]

这就是熟悉的 one-hot 编码。one-hot 编码有其局限性, 首先,如果词汇表太大(几万都是很常见的),向量长度太大,计算的消耗则过高。此外,如果我们向词汇表中添加或删除单词,所有单词的表示都会发生变化。最关键的是,这种表示无法实现 “国王-男人+女人=女王”的这种带有语义性质的运算效果,即无法捕捉单词深层的语义信息。

那么我们希望达到怎么样的效果呢?

  1. 所有单词的表示有一个固定的维度,例如300维,举例you=[0.11, 0.23,0.01,...,0.1] (长度为300)
  2. 能表示语义信息,相似的词语应该有相近的向量

为了实现这些效果,Word2Vec 提出了一些模型架构,如 CBOW、Skip-Gram,这些算法出现了11年,稍微有接触相关算法的一定不会陌生。本文仅介绍 CBOW 的原理。

3. CBOW

CBOW,即 Continuous Bag of Words 缩写。CBOW 模型的目标是根据上下文中的周围单词预测中心词。

CBOW 模型的基本思想是通过上下文中的多个单词来预测当前单词。给定一个长度为 2c 的上下文窗口,当前单词的前 c 个单词和后 c 个单词(包括当前单词),CBOW 模型通过最大化给定上下文单词的条件下中心词的条件概率来训练模型。

假设还是这个句子 “you are a good man”,我们的窗口大小为2,那么如果 a 做为预测单词,那么就会得到一个上下文窗口 [“you” “are” “a” “good”],

假设词典一共有10个单词,并且 “you are a good man” 都在词典中,那么对于上下文窗口 [“you” “are” “a” “good”]

Input 可以这样表示:
y o u = [ 1 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ] you=[1,0,0,0,0,0,0,0,0,0] you=[1,0,0,0,0,0,0,0,0,0]

a r e = [ 0 , 1 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ] are=[0,1,0,0,0,0,0,0,0,0] are=[0,1,0,0,0,0,0,0,0,0]

g o o d = [ 0 , 0 , 0 , 1 , 0 , 0 , 0 , 0 , 0 , 0 ] good=[0,0,0,1,0,0,0,0,0,0] good=[0,0,0,1,0,0,0,0,0,0]

Input 聚合表示:
y o u + a r e + g o o d = [ 1 , 1 , 0 , 1 , 0 , 0 , 0 , 0 , 0 , 0 ] you+are+good=[1,1,0,1,0,0,0,0,0,0] you+are+good=[1,1,0,1,0,0,0,0,0,0]

target 可以这样表示:
a = [ 0 , 0 , 1 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ] a=[0,0,1,0,0,0,0,0,0,0] a=[0,0,1,0,0,0,0,0,0,0]
那么现在可以进行训练了,CBOW 使用具有单个隐藏层的浅层神经网络。训练过程如下:

  1. 将每个单词表示为一个 one-hot 向量,其中单词的维度等于词汇表的大小。
  2. 将上下文的向量表示作为输入,通过一个隐藏层得到中心词的预测概率分布。
  3. 使用 softmax 函数将预测概率归一化,得到每个单词作为中心词的条件概率。
  4. 使用交叉熵损失函数计算预测概率与真实中心词的概率分布之间的差异,并通过反向传播算法更新模型参数。

模型如下:

4. 训练结果

(1)我们经过模型的训练之后,是希望得到模型本身吗?

答:否。

我们在这里训练实际上是希望得到输入层到隐藏层的权重矩阵,就是图中的 U,类似一个“查找表“(lookup table)。假设权重 U 为:
U = [ 0.01 0.23 0.2 . . . 0.05 0.02 0.13 0.05 . . . 0.01 . . . 0.01 0.03 0.22 . . . 0.04 ] U=\begin{bmatrix} 0.01 & 0.23 &0.2&...&0.05\\ 0.02&0.13&0.05&...&0.01\\ &&...\\ 0.01&0.03&0.22&...&0.04\\ \end{bmatrix} U= 0.010.020.010.230.130.030.20.05...0.22.........0.050.010.04
对于
a r e = [ 0 1 0 0 0 0 0 0 0 0 ] are=\begin{bmatrix} 0&1&0&0&0&0&0&0&0&0 \end{bmatrix} are=[0100000000]
实际上就是选取U矩阵的第2行的结果作为 embedding 向量,表示 “are” 的向量化结果!矩阵U也就是我们训练需要得到的结果了!

(2)那么,为什么这种方式可以捕捉到单词之间的语义关系呢?

答:Word2Vec 经过大规模的语料训练,可以捕捉到单词之间的语义关系的原因主要有两个方面:

  1. 分布假设(Distributional Hypothesis)
    Word2Vec 基于分布假设,即相似的单词在语料库中通常会在相似的上下文中出现。这意味着具有相似语义的单词在文本数据中通常会有类似的分布模式。Word2Vec 模型通过观察单词在上下文中的分布模式来学习单词之间的语义关系。如果两个单词在语料库中的上下文中经常出现在相似的环境中,那么它们的 Word2Vec 向量表示就会在向量空间中更加接近。

  2. 向量空间中的相对位置关系
    Word2Vec 将单词映射到一个连续的向量空间中,其中每个维度都表示了一个语义特征。在这个向量空间中,具有相似语义的单词通常会在向量空间中更加接近。例如,通过使用 Word2Vec 模型学习的词向量,可以发现 “king” 和 “queen” 的向量之间的差异与 “man” 和 “woman” 的向量之间的差异非常相似。这种相对位置关系可以捕捉到单词之间的语义关系,使得 Word2Vec 能够在向量空间中准确表示单词的语义信息。

Word2Vec 通过学习单词在语料库中的分布模式和语义特征来捕捉单词之间的语义关系。这使得 Word2Vec 能够生成具有丰富语义信息的单词向量表示,可以应用于各种自然语言处理任务中。

5. 如何使用

一旦训练了 Word2Vec 模型并得到了单词的向量表示,你可以将这些向量用于各种自然语言处理任务中。以下是一些常见的用法:

  1. 词向量相似度计算
    使用训练好的 Word2Vec 模型,你可以计算单词之间的相似度。通过计算词向量之间的余弦相似度或内积等度量,可以找到语义上相似的单词。这在信息检索、词义消歧等任务中非常有用。

  2. 词语替换
    通过找到与目标单词在向量空间中相似的单词,你可以进行词语替换。这在数据增强、文本修复等任务中常用,可以帮助生成更加多样和合理的文本。

  3. 文本分类
    可以将单词的向量表示作为输入特征,用于训练文本分类模型。在训练过程中,可以使用预训练的 Word2Vec 模型加载单词向量,并固定这些向量或在训练过程中进行微调。

  4. 语言模型
    可以使用单词的向量表示构建语言模型,预测下一个单词或下一个句子。Word2Vec 中学习到的单词向量可以作为输入特征,帮助模型更好地理解语义信息。

  5. 文本生成
    将训练好的 Word2Vec 模型用于文本生成任务中,可以帮助模型生成更加自然和连贯的文本。通过将单词的向量表示输入到生成模型中,可以使模型更好地理解单词之间的语义关系。

这些也是 LLM 的一些基础能力。

6. 延伸

我们在《LLM 为什么需要 tokenizer?》 中介绍了 LLM 需要 Tokenizer,实际上也就是在训练中建立 embedding 向量。

此外,在介绍 Transformer 模型时:

《NLP深入学习:大模型背后的Transformer模型究竟是什么?(一)》

《NLP深入学习:大模型背后的Transformer模型究竟是什么?(二)》

encoding/decoding 输入向量的 Input Embeddings 也是在训练中建立 embedding 向量。这些思想与 Word2Vec 一致。

7. 参考

《LLM 为什么需要 tokenizer?》

《Efficient Estimation of Word Representations in Vector Space》

《NLP深入学习:大模型背后的Transformer模型究竟是什么?(一)》

《NLP深入学习:大模型背后的Transformer模型究竟是什么?(二)》

欢迎关注本人,我是喜欢搞事的程序猿;一起进步,一起学习;

欢迎关注知乎/CSDN:SmallerFL

也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/688839.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

租赁商城小程序基于ThinkPHP+FastAdmin+UniApp(源码搭建/上线/运营/售后/更新)

提供用户物品租赁服务的应用程序,方便客户搭建各种类型的租赁场景服务。通过小程序端多角色进行平台管理,用户租赁商品缴纳租金及押金,员工端可操作商品出库和归还,订单完成后押金原路退回。 ​在线预约和支付:用户可以…

构建内网yum仓库

1、环境介绍 系统:龙蜥os 7.9 2、安装epel源 yum install epel-release -y3、安装nginx服务器并启动 yum install nginx httpd -y配置 server {listen 80;server_name repo.wtown.com;root /usr/share/nginx/html/repo;index index.html index.htm;location / {…

如何批量将十六进制数据转成bin文件

最近在做新项目遇到一个问题,我们要通过上位机把一堆数据通过串口发送给下位机存储,而上位机需要Bin文件。 解决办法: 1)创建一个记事本文件,然后将其后缀修改成.bin 2)然后打开notepad,新建一个文件,随便写下数据 我…

【Git】Git在Gitee上的基本操作指南

文章目录 1. 查看 git 版本2. 从Gitee克隆仓库:3. 复制文件到工作目录:4. 将未跟踪的文件添加到暂存区:5. 在本地提交更改:6. 将更改推送到远程仓库(Gitee):7. Windows特定提示: 1. …

动作识别 slowfast动作识别项目记录

动作识别 slowfast动作识别项目记录

pikachu靶场-全套学习

文章目录 配置pikachu靶场浏览器访问过程burpsuite配置代理hackbar安装使用kali安装中国蚁剑暴力破解cookie简化场景解释各部分含义如何工作 基于表单的暴力破解验证码绕过(On server)验证码绕过(on client)token防爆破? XSS(Cross-Site Scripting跨站脚本攻击 &am…

使用Baidu Comate五分钟 , 工作时间摸鱼8小时

Baidu Comate:引领智能编码新时代 文章目录 Baidu Comate:引领智能编码新时代一、明日工具,今日领先——百度Comate智能编码助手二、万变不离其宗——适配场景需求三、功能研究3.1 指挥如指掌——指令功能3.2 助手增援——插件功能使用3.3 实…

客户案例:CACTER云网关为企业O365系统提供安全新护盾

一、客户背景 某智能驾驶企业是一家国际性的高科技创新型企业,其智能驾驶领域处于全球领先地位,专注于为广大客户提供个性化的智能驾驶解决方案,共建美好智能新时代。 使用产品:CACTER邮件安全云网关 二、痛点难点问题 根据…

歌手舞台再掀风云

《歌手》舞台再掀风云,重磅消息来袭——国际巨星亚当兰伯特空降踢馆,一场音乐盛宴即将点燃激情!消息一出,粉丝欢呼,热议如潮。亚当兰伯特,这位曾让世界为之倾倒的音乐天才,如今即将登陆《歌手》…

MFC中关于CMutex类的学习

MFC中关于CMutex类的学习 最近在项目中要实现两个线程之间的同步,MFC中提供了4个类,分别是CMutex(互斥量)、CCriticalSection(临界区)、CEvent(事件对象)、CSemaphore(信号量)。有关这4个类的说明,大家可以参考微软官方文档: CM…

最大子序列的分数

题目链接 最大子序列的分数 题目描述 注意点 n nums1.length nums2.length从nums1和nums2中选一个长度为k的子序列对应的下标对nums1中下标对应元素求和&#xff0c;乘以nums2中下标对应元素的最小值得到子序列的分数0 < nums1[i], nums2[j] < 1000001 < k < …