embedding

news/2024/11/18 11:35:10/文章来源:https://www.cnblogs.com/jye159X/p/18199378

1 one-hot编码

首先讲讲one-hot编码,这种编码很简单。假设你有N个词,那么就直接创建一个N维度的向量,之后每个词在不同位置上取1来区分。N个词相当于在一个N维空间里,刚好N个单位向量。而且这些向量彼此正交

这种简单的表示方法存在几个问题:

  1. 维度高:N个词有N个维度,所以对于英文字典,就有成百上千的维度。计算量太大,高维空间中词向量过于稀疏,不便于计算
  2. 不能表示词与词之间的关联:词与词是有关联的,可以是词义上的关联,也可以是词性上的关联等。但是one-hot编码导致所有词向量正交,不能表示他们之间的关系。

2 embedding操作

对于one-hot编码的问题,我们想,是否存在一种降维方法将这些词向量,映射到一个低维的空间中,同时保证相近词之间位置密集(“相近:取决于你的任务目的”),这个过程就叫embedding,将词嵌入到一个低维密集空间中。

现在embedding算法已经有很多了,我这里了解不多也不再赘述。但是2013年谷歌创造的word2vec的算法,就是其中一种著名的embedding算法。

这种算法简单,简单到只使用了带一层隐藏层的神经网络就学习到了这种映射。甚至当年的论文,连激活函数都没有,而且还是无监督学习,不需要人进行语料标注。

3 word2Vec

word2vec分为两种模型,一种叫CBOW(用上下文去预测中心词),另一种叫skip-gram(以中心词去预测上下文)

需要注意的一点,word2vec是一种伪任务(fake task),真任务意思是我们拿数据去训练一个网络,然后用训练好的网络模型去完成相应实际任务(比如预测,分类等),但是word2vec我们并没有一个实际任务,我们只是需要通过已有的词,去学习到一个网络结构进行空间映射

image-20240313180650761

image-20240313181006130

上面看起来两者的结构像是对偶的,skip-gram的输入像一个学生,但是有多个老师进行辅导,最后loss是多个老师的交叉熵求和;CBOW则是多个学生对一个老师

image-20240313182211727

其他embedding技术

image-20240313182311811

参考材料

万字长文经典-再论Embedding 技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/708247.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团一面问我i++跟++i的区别是什么

美团一面问我i++跟++i的区别是什么 面试官:“i++跟++i的区别是什么?” 我:“i++是先使用然后再执行+1的操作,++i是先执行+1的操作然后再去使用i” 面试官:“那你看看下面这段代码,运行结果是什么?” public static void main(String[] args) {int j = 0;for (int i = 0;…

成功实现FaceTime数据筛选,FaceTime蓝号检测,检测是否开通FaceTime功能的实现原理

FaceTime是苹果公司iOS和macOS(以前称Mac OS X或OS X)内置的一款视频通话软件,通过Wi-Fi或者蜂窝数据接入互联网,在两个装有FaceTime的设备之间实现视频通话。其要求通话双方均具有装有FaceTime的苹果设备,苹果ID以及可接入互联网的3G/4G/5G或者Wi-Fi网络。一、Windows电脑…

一文掌握:数据湖是什么?可不是数据仓库

一、什么是数据湖 数据湖(Data Lake)是指一个大型数据存储和处理系统,它能够存储各种类型和格式的数据,包括结构化数据、半结构化数据和非结构化数据。数据湖的目的是为了让企业可以更好地管理和利用大量的数据,以便进行数据分析、机器学习等工作。数据湖通常采用分布式计…

Django markdown 实现

一、安装markdown插件 pip install django-mdeditor pip install markdown二、在 settings 配置文件 INSTALLED_APPS 中添加 mdeditor:INSTALLED_APPS = [...mdeditor,]三、插入图片没有地址,针对django3.0+修改 frame 配置,settings.py设置如下: X_FRAME_OPTIONS = SAMEORI…

一款基于C#开发的通讯调试工具(支持Modbus RTU、MQTT调试)

前言 今天大姚给大家分享一款基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具(支持Modbus RTU、MQTT调试,界面色彩丰富):Wu.CommTool。 工具特点工具界面色彩丰富。 支持Modbus RTU、MQTT服务器、MQTT客户端。 Modbus RTU自动解析数据帧。 智能防粘包…

20240518模拟赛

C240518A. 传送门(portal) 构造一个图使得点\(1\)到\(2\)的最短路正好有\(k\)条,使构造出的图点的个数\(N\le n_5\) 考虑\(k=2^t\)那么可以轻松构造出如下的图对于其他的情况可以考虑二进制拆分,如\(k=10\)时为了,使最短路长度固定加入点\(9\)对\(k=10^9\),只需构造\(80\)个…

『手撕Vue-CLI』添加帮助和版本号

前言 经过上一篇『手撕Vue-CLI』编码规范检查之后,手撕 Vue-CLI 已经进阶到了代码规范检查这一步,已经将基本的工程搭建好了,然后代码规范约束也已经加入了,并且将 nue-cli 指令绑定到了全局当中,可以在任何地方使用了。 正文 接下来这篇文章呢,就要来实现一下大多数的命…

ASE180N08-ASEMI低压N沟道MOS管ASE180N08

ASE180N08-ASEMI低压N沟道MOS管ASE180N08编辑:ll ASE180N08-ASEMI低压N沟道MOS管ASE180N08 型号:ASE180N08 品牌:ASEMI 批号:2024+ 沟道:N沟道 导通内阻RDS(ON)Max:4.0mΩ 启动电压:2V-4V 最大漏源电流(Id):180A 漏源击穿电压(VRM):80V 正向电压:1.3V 特性:低…

垂直关系转化思维导图

线线、线面、面面垂直关系转化思维导图前言 使用方法:如果想得到更好的显示效果,可以点击全屏按钮,已经实现电脑端、手机端的适配,效果很好;电视端没有实现适配,Ipad端的适配没有测试; 思维结构图全屏 相关说明 内容继续编辑完善中,源文件存放在 draw.io 上。

C++学习----make

基本规则:touch main.c add.c sub.c add.h sub.h #新建以上文件 main函数: int main(void) {return 0; } Makefile文件: main:main.o add.o sub.ogcc -Wall -g main.o add.o sub.o -o main main.o:main.cgcc -Wall -g -c main.c -o main.o add.o:add.c add.hgcc -Wall -g -c …

logstash

遇到的问题:环境: 配置:input {beats {port=>5044codec=>plain{charset=>"UTF-8"}} }filter {mutate {remove_field => ["host","input","@timestamp","ecs","tags","agent","@ve…