169 使用词嵌入

news/2025/2/23 12:35:23/文章来源:https://www.cnblogs.com/dingxingdi/p/18718707

以判断人名为例。如果我们只使用独热编码,那么我们的训练集不能太大(否则维度爆炸),所以遇到了下面这种情况
image
我们没有在训练集中坚果duriancultivator,导致我们没有判断出来Robert Lin是人名
但是如果我们使用词嵌入,我们的训练集就可以很大(从网上下载即可),然后通过神经网络将词嵌入学出,最后判断的时候我们就可以发现两组词之间的相关性,于是即使我们没有在训练集中见过durian cultivator,我们也可以判断出Robert Lin是人名
当然上面为了简单,使用的是单向RNN,实际上应该使用双向RNN
总结词嵌入的步骤如下
image
词嵌入的过程跟迁移学习的过程也很类似,可以看做一种新的迁移学习
词嵌入有一个重要应用就是类比。假设我现在说男人对女人,那么请问国王对什么?显然是对王后。那么计算机怎么知道答案呢?见下
image
主要是询问像下面一样的差分向量
image
我们发现差分向量非常接近,于是可以知道答案是王后
现在的问题就是如果判断两个向量是否相似。这就要用到相似函数
常见的相似函数

  • 余弦相似度
    image
  • 欧几里得距离

在学习过程中,我们学习的是嵌入矩阵(就是上一个文章内的第一张图片)。学习了嵌入矩阵之后,我们使用独热编码向量与这个矩阵相乘就可以得到某个词在嵌入矩阵中的向量(只不过实际中我们不会这么去做矩阵乘法,因为独热编码就只有一个维度是\(1\),使用矩阵乘法实在是太浪费计算资源了,我们会直接查找嵌入矩阵的对应列)
假设我们现在的训练数据如下(单词下面的数字是单词在词表里面的序号)
image
我们提取出每个单词的嵌入向量如下
image
然后把这些嵌入向量扔进RNN,接一个\(\text{Softmax}\)全连接层即可
我们也可以使用像\(n\)元语法这种,只考虑预测单词的前面(后面也可以)若干个词(而不是全部),前面的第\(x\)个词(其中\(x>1\))。如果我们的目标不是训练嵌入矩阵而是建立语言模型的话,最好还是使用类似\(n\)元语法这种形式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/884844.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

简单的Java程序 HelloWorld

HelloWorld谁便新建一个文件,存放代码 新建一个Java文件文件后缀名为.java Hello.java 系统可能没有显示文件后缀名,需要手动打开编写代码 public class Hello{public static void main(String[] args){System.out.print("Hello,World");} }1. 编译 javac java文…

『ubuntu使用」在桌面建立一个文件夹的快捷方式

ubuntu 24.04 可能是我笨,这个原本觉得非常简单的操作,竟然还有陷阱。我想把主文件夹中的一个目录,放到桌面的快捷方式,希望可以快速访问。试了很多操作都不行,只能百度了…… 问题复述: 我想把“工作目录”这个文件夹在桌面建立一个快捷方式,在查到使用ln -s 命令以后,…

【保姆级教程】DeepSeek R1+RAG,基于开源三件套10分钟构建本地AI知识库

一、总体方案 目前在使用 DeepSeek 在线环境时,页面经常显示“服务器繁忙,请稍后再试”,以 DeepSeek R1 现在的火爆程度,这个状况可能还会持续一段时间,所以这里给大家提供了 DeepSeek R1 +RAG 的本地部署方案。最后实现的效果是,结合本地部署的三个开源工具,包括 1Pane…

【保姆级教程】DeepSeek R1+RAG,基于开源三件套10分钟构建本地AI知识库(文末附笔记及材料)

一、总体方案 目前在使用 DeepSeek 在线环境时,页面经常显示“服务器繁忙,请稍后再试”,以 DeepSeek R1 现在的火爆程度,这个状况可能还会持续一段时间,所以这里给大家提供了 DeepSeek R1 +RAG 的本地部署方案。最后实现的效果是,结合本地部署的三个开源工具,包括 1Pane…

[2025.2.10~16 鲜花] 仆は可怜な少女にはなれない

人間になりたい[2025.2.10~16 鲜花] 仆は可怜な少女にはなれない 要省选了,和以前相比,确实可以确定的是,我的\(oi\)水平还是很有进步的,但是我依旧不会考试,考试的心态依旧不好 平时的模拟赛根本做不到像正式考试一样打,正式考试似乎只要卡壳一下,脑子就钝住了,很奇怪…

【ABP】项目示例(3)——仓储

仓储 在上一章节中,已经完成了领域层的聚合根和实体设计,在这一章节中,实现仓储层的部分功能 仓储作为领域模型和数据模型的桥梁,领域层不关注仓储是怎么实现持久化数据的。对于领域层,仓储层隐藏了持久化数据的细节,所以只需要将仓储接口定义在领域层,而具体的仓储实现…

ZUC算法

1. 算法概述 ZUC(祖冲之密码算法)是我国发布的商用密码算法中的序列密码算法。可用于数据保密性保护、完整性保护等。 ZUC算法密钥长度为128比特,由128比特种子密钥和128比特初始向量共同作用产生32比特位宽的密钥流。 ZUC算法标准包括三个部分,相对应的国家和密码行业标准…

【API】终极 API 学习路线图

API 是 Internet 通信的主干。每个开发人员都需要了解 API。以下是涵盖最重要主题的路线图:API 简介API 是一组用于构建应用程序的协议和工具。存在不同类型的 API,例如 public、private 和 partner。 2. API 术语 需要了解各种 API 术语,例如 HTTP 版本、Cookie 和缓存。 3…

cs144-lab0

CS144: 计算机网络导论 2025年冬季 check0: 本次实验中大概四项任务:在电脑上安装GNU/Linux系统; 手动执行网络任务(如获取网页、发送邮件); 用C++编写一个从互联网获取网页的小程序; 实现网络的核心抽象之一:内存中的可靠字节流(在写入端和读取端之间)。1 配置GNU/L…

[ubuntu使用]安装微信

ubuntu 24.04 一段时间没用ubuntu系统了,刚换的笔记本,二手Thinkpad X1 Carborn 2018,结果装ubuntu24就是装不了,安装完成启动不了。无奈安装的ubuntu20,正常使用后,在更新的时候提示更新到ubuntu22和ubuntu24,最终也升级到最新了,不知道什么问题。 言归正传,使用的时…

2024“全球网络和软件品牌价值15强”——爱码士IT培训

2024“全球网络和软件品牌价值15强”排行榜英国品牌评估机构“品牌金融”(Brand Finance)发布2024“全球网络和软件品牌价值15强”排行榜(Internet & Software 15),微软、甲骨文、思爱普蝉联前三位。 品牌价值被理解为品牌所有者通过在公开市场上许可该品牌所获得的净经济…