嵌入Embedding-计算理解语言的钥匙

news/2025/1/14 18:18:27/文章来源:https://www.cnblogs.com/lhx9527/p/18670468

定义: 将人类语言与数字建立联系的强大方法

嵌入技术的演变:
Wod2Vec

  • CBOW(Continuous Bag of Words):根据上下文词汇预测目标词汇(情感分析、文本分类、词相似性)
  • Skip-Gram:根据目标单词预测周围单词
    在训练Word2Vec模型时,包含词典和词向量模型的训练
    词典的构建是训练过程的一部分。具体步骤如下:
  1. 分词:首先,输入的文本数据会被分词,每个句子被拆分成单词列表。
  2. 构建词汇表:在分词的基础上,模型会遍历所有句子,统计每个单词的出现频率,并构建一个词汇表。这个词汇表记录了所有唯一单词及其出现次数。
  3. 过滤低频词:根据 min_count 参数,模型会过滤掉出现次数少于 min_count 的单词。这些单词不会被包含在最终的词汇表中,也不会有对应的词向量。
  4. 索引映射:对于每个保留下来的单词,模型会分配一个唯一的索引。这个索引用于在词向量矩阵中快速查找对应的词向量。
  5. 词向量的训练
    在词典构建完成后,模型会开始训练词向量。具体步骤如下:
  6. 初始化词向量:模型会为词汇表中的每个单词初始化一个随机的词向量。这些词向量的维度由 vector_size 参数决定。
  7. 训练过程:模型通过遍历所有句子,使用上下文窗口(由 window 参数决定)来预测目标单词或使用目标单词来预测上下文单词(取决于使用的架构是CBOW还是Skip-Gram)。
  8. 反向传播:在每次预测过程中,模型会计算预测值和实际值之间的误差,并通过反向传播算法调整词向量,使得模型能够更好地预测上下文单词或目标单词。
  9. 优化:通过多次迭代,模型会逐渐优化词向量,使得词向量能够捕捉单词的语义和语法信息。

2、GloVe (2014):引入全局上下文
GloVe(Global Vectors for Word Representation)通过统计单词在数据集中同时出现的频率,进一步提升了嵌入技术的表达能力。例如,它能推导出“国王-男人+女人=女王”这样的关系。

3、Transformers (2018):上下文敏感的嵌入
BERT 和 GPT 等基于 Transformer 的模型,将嵌入提升到新的高度。与早期的静态嵌入不同,Transformer 能够根据句子中的具体语境动态调整单词的含义。例如,“Bank”在“河岸”和“金融机构”中的表示是不同的。

模型怎么学习,计算机会注意到以下模式:

• 相似上下文中的单词具有相似含义,如“猫”和“狗”都出现在“宠物”、“睡觉”等上下文中。
• 频繁一起出现的单词关系密切,如“西安”和“汉唐盛世”。
• 替换不会改变语义的词是同义词,如“美丽”和“华丽”。

嵌入的多层次应用(这里指的是在不同的应用场景,需要进行嵌入应用的最小粒度)
1、单词嵌入(Word Embeddings) 专注于捕捉单词的语义信息,广泛应用于同义词查找、词义消歧等任务。
2、句子嵌入(Sentence Embeddings) 用于提取句子的整体含义,适合构建问答系统、语义相似度计算等场景。
3、文档嵌入(Document Embeddings) 通过捕捉长文本的主题和结构信息,为文章分类、摘要生成等任务提供支持。

长文本如何嵌入?
处理长文本时,需要针对文本的长度和任务需求选择合适的嵌入方法:

1、平均词嵌入 (Averaging Word Embeddings) 将文本中所有词向量取平均以生成嵌入向量。这种方法简单且计算效率高,但无法捕捉词序和上下文的复杂关系。
2、循环神经网络 (Recurrent Neural Networks, RNNs) 按顺序处理文本,能够捕捉单词之间的时间依赖关系。适合中等长度文本,但对超长文本的表现受限。
3、Transformer 模型 Transformer 一次性分析整段文本,通过自注意力机制同时捕获局部和全局关系,是长文本嵌入的主流选择。
4、池化技术 (Pooling Techniques) 如最大池化或平均池化,用于提取文本中最具代表性的特征向量,常与 Transformer 模型结合使用,以提升长文本的处理效率。

实际应用场景,不同长度的文本嵌入方法各有其独特优势:
• 短查询或句子:使用单词或句子嵌入进行语义搜索,如关键词匹配或搜索引擎优化。
• 长文档:采用段落或文档嵌入进行主题分类、情感分析或摘要生成。
• RAG 系统(Retrieval-Augmented Generation):将文档分块(每块 100-300 个单词)进行嵌入,以实现高效的检索和生成,兼顾上下文细节和计算效率。

refer
https://mp.weixin.qq.com/s/ODJ-tIcxoKYABylUBnfNJg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/869182.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ExcelConvert【Excel转换为XML JSON HTML CSV TXT】

ExcelConverter是用VB6开发的应用软件。 界面如下 第一部分:转换为XML 首先在Excel选择一部分数据。 软件里面勾选“首列作为元素名称”,单击“转换” 勾选与不勾选,得到如下XML数据,注意对比。<root><金龙宇 性别="男" 年龄="29" 民族=&qu…

Kyutai开源端侧模型Helium -1 preview;FoloToy内测「超级智能体」,支持联网查询和语音调整音量语速

开发者朋友们大家好:这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑…

多模态大模型InterVL2.5使用记录

本文记录在本地安装和测试InterVL2.5(26B版本) 论文:https://arxiv.org/abs/2412.05271 Huggingface模型权重下载页:https://huggingface.co/collections/OpenGVLab/internvl25-673e1019b66e2218f68d7c1c Github: https://github.com/OpenGVLab/InternVL 本地硬件:RTX3090 1…

JR九州列车播放收听

JR Kyushu 是一款用VB.NET开发的软件。启动软件时大约需要等待10分钟。 以树形结构显示各个站台,鼠标点击每个节点,可以听到播放声音。 效果图如下

英语语法(修饰词)

形容词简介 冠词(例如 the、a 和 an 等词) 定冠词和不定冠词 副词简介 关系副词 形容词顺序例子: 逗号和形容词 例子: 比较级和最高级简介 形成比较级和最高级修饰语 例子: 强化词和程度副词 例子:

RunMacro2003

这是一款基于XML数据生成Excel / Word / PPT 2003 工具栏界面的COM加载项。 在Excel 2003的COM 加载项勾选“RunMacro2003”,就可以看到自定义工具栏。 示例XML内容如下:<CommandBars><CommandBar Name="Worksheet Menu Bar"><!--内置菜单栏-->&…

mysqlworkbench如何导出查询结果

步骤一:找到本地文件导出权限位置show variables like %secure%; ##用于查看本地文件导入权限是否开启 set global local_infile =1; ##打开权限 show global variables like %secure_file_priv%;##找到权限的目录 步骤二:导出查询结果查询语句 INTO OUTFILE C:/ProgramDat…

【附源码】JAVA房屋租赁系统源码+SpringBoot+VUE+前后端分离

学弟,学妹好,我是爱学习的学姐,今天带来一款优秀的项目:房屋租赁系统 。 本文介绍了系统功能与部署安装步骤,如果您有任何问题,也请联系学姐,偶现在是经验丰富的程序员! 一. 系统演示 截图 二. 系统概述 技术栈 后端 : JDK8 , SpringBoot , SpringMVC , Myba…

uni-app 本地打包

1.前言打包分为2个部分:App资源替换和打包配置(包名,应用名称,版本号,图标,证书等),目前整包升级存在问题2.配置包名包名怎么获取:包名就是appid,可以通过编辑器或者开发者后台管理中心看到配置包名:文件路径(HBuilder-Integrate-AS\simpleDemo\src\main\assets\data…

‌OCP英文全称是什么

在数据库领域,OCP全称为Oracle Certified Professional,是Oracle公司提供的Oracle数据库中级认证,专门针对数据库管理员(Database Administrator,简称DBA)和数据库开发人员。以下是关于OCP认证的详细介绍: 认证领域与级别: OCP认证主要与Oracle数据库管理相关,涵盖了数据…

MD5生成器

MD5生成器是我用VB6开发的。 可以把一个字符串转换为MD5加密文本,也可以把电脑中的一个文件转换为MD5文本。 第一个路线: 字符串→字节数组→MD5 第二个路线:文件→字节数组→MD5 效果如下:

批量生成并打印文档Excel2Word

Excel2Word是一款利用Excel数据生成Word文档的工具。 使用过程主要分为 两部分:Word模板制作 批量生成Word(生成、保存、打印 可选)其中Word模板制作,是在Word模板中插入书签,并且与Excel标题行的列名关联。 批量生成Word,是在Excel中选中多行,然后点击 生成 即可。以下…