大模型相关技术-embedding与分词

接上一篇文章大模型相关技术-初识RAG,我们已经对RAG(搜索增强)有了一定的了解,知道了为什么需要RAG和RAG的技术基石,本篇我们将详细学习一下RAG的两大关键技术中的embedding

在自然语言处理(NLP)领域,分词和Embedding是两个基础且重要的概念。分词是将文本切分为单词或词汇单元的过程,而Embedding入则是将这些词汇转换为可供机器学习模型处理的数值向量。下面将结合分词技术,详细解释大模型中Embedding入技术。

分词技术

分词是将连续的文本序列分割成一个个独立的词汇单元的过程。在英语等使用空格分隔词汇的语言中,分词相对简单;而在汉语、日语等没有明显词汇界限的语言中,分词则是一个复杂的任务,通常需要借助特定的算法来识别词汇边界。

分词算法通常包括以下几种:

  1. 基于规则的分词:利用预设的规则(如词典和语法规则)来识别词汇。
  2. 基于统计的分词:通过分析大量的语料库,统计词汇的出现频率和共现概率来进行分词。
  3. 基于机器学习的分词:使用标注好的语料库训练模型,使其学习如何分词。
  4. 基于深度学习的分词:使用循环神经网络(RNN)、长短时记忆网络(LSTM)或者Transformer等深度学习模型进行分词。

普通的全文检索用了基于规则的分词,比如著名的IKAnayzer,他的实现算法是“正向迭代最细粒度切分算法”,基本逻辑为:

抱歉,腾讯云markdown编辑出来再富文本里面会错行,只能截图了

embedding技术

Embedding是将词汇转换为实数向量(无监督)的过程,这些向量能够捕捉词汇之间的语义关系。在大模型中,Embedding通常是模型的第一层,负责将输入的文本数据转换为可供后续层处理的数值形式。

Embedding入技术的关键特性包括:

  1. 分布式表示:每个词汇被表示为一个高维空间中的点,而不是单一的索引或符号。
  2. 上下文感知:Embedding通常考虑词汇的上下文信息,即同一个词在不同的上下文中可能有不同的表示。
  3. 语义相似性:在嵌入空间中,语义相近的词汇会被映射到相近的位置。

常见的Embedding模型有:

  1. Word2Vec:由Google提出的一种静态Embedding方法,包括连续词袋模型(CBOW)和Skip-gram模型。
  2. GloVe:全局向量Embedding模型,它结合了Word2Vec的优点,并加入了对词汇共现统计信息的考虑。
  3. FastText:由Facebook提出的一种模型,它可以看作是Word2Vec的扩展,支持对词汇进行子词级别的嵌入。
  4. BERT:基于Transformer结构的动态Embedding模型,它通过预训练的方式在大量文本上学习词汇的表示,能够很好地捕捉上下文信息。

目前主流的embedding模型评测结果:BCEmbedding/Docs/EvaluationSummary/embedding_eval_summary.md at master · netease-youdao/BCEmbedding (github.com)

有一个比较有意思的场景大家可能都遇到过,那就是各种信息流网站推送的推荐,我们盲猜一下推荐内容的来源,小王正在看文章《雪佛兰全尺寸SUV 太浩也许是你最终的选择》,当我点开这篇文章的时候embeddingModel将我的文章内容向量化,同时发起向量检索,找出匹配度高的文章,作为信息流不断地推给我,这也就是为什么推荐的新闻、视频越看越多?

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

AGI大模型.jpg

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取==🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/681300.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Vue】vue中将 html 或者 md 导出为 word 文档

原博主 xh-htmlword文档 感谢这位大佬的封装优化和分享,亲测有用!可以去看大佬👇的说明! 前端HTML转word文档,绝对有效!!! 安装 npm install xh-htmlword导入 import handleEx…

SpringSecurity源码分析(RemeberMe)

RememberMeServices RememberMeServices 记住我的服务的接口 可以重写实现自己的记住我 public interface RememberMeServices { //建议 org. springframework. security. authentication. RememberMeAuthenticationToken 在大多数情况下使用它,因为它具有相应的身份…

铅离子/镉离子绿色荧光探针,具有高特异性高灵敏度

基本信息: 中文名称:铅离子/镉离子绿色荧光探针 英文名称:Leadmium TM Green AM dye 外观:固体或粉末状 规格:10mg、25mg、50mg (可支持定制) 纯度:95% 储存条件:-20C避光避湿…

【Docker】新手教程的第一个demo:Wordpress

1 任务简单介绍 WordPress是什么: 是一个常用博客软件简单易部署,只需要两个容器(业务容器 数据库容器) 本文借鉴博客,使用自建 WordPress 容器方法在Docker上部署Wordpress,本地环境为Mac时使用该博客…

mysql数据库---操作数据库跟表的命令总结

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文着重整理mysql管理库跟表的指令。 不涉及增删查改等指令 其实本篇主要是我做好笔记格式 用的时候直接复制粘贴的 所以排版大多是为了快速找功能来排的 方便大家快速找目标语法 数据库的简介 一个数据库系…

系统权限控制插件封装-实现系统权限控制插件化

背景:按照传统的开发方式方式,每次新开发一个系统,就需要花费大量时间精力去搭建权限控制模块,如果我们把权限控制这一整个模块都抽离成一个独立的权限控制插件,支持单命令安装,全面暴露参数与方法&#xf…

JDBC技术-1

JDBC: Java Database Connectivity Java连接数据库技术 通俗点说,在Java代码中,使用JDBC提供的方法,可以发送字符串类型的SQL语句到数据库管理软件(Mysql,Oracle等),并且获取语句执行结…

RK3568平台(基础篇)linux错误码

一.概述 linux应用程序开发过程中,经常会遇到一些错误信息的返回,存在的可能性有,参数有误、非法访问、系统资源限制、设备/文件不存在、访问权限限制等等。对于这类错误,可以通过perror函数输出具体描述,或者通过str…

Linux-笔记 uboot修改设备树

1. FDT介绍 扁平设备树(Flattened Device Tree,FDT),也叫平坦设备树,是设备树的一种二进制表示形式,提高了在嵌入式系统中的传输和解析效率; 2. 在U-Boot中使用FDT 2.1. 进入U-Boot 开发板上…

基于无监督学习算法的滑坡易发性评价的实施(k聚类、谱聚类、Hier聚类)

基于无监督学习算法的滑坡易发性评价的实施 1. k均值聚类2. 谱聚类3. Hier聚类4. 基于上述聚类方法的易发性实施本研究中的数据集和代码可从以下链接下载: 数据集实施代码1. k均值聚类 K-Means 聚类是一种矢量量化方法,最初来自信号处理,旨在将 N 个观测值划分为 K 个聚类,…

如何把逻辑地址转换为物理地址

​ 使用系统架构设计师真题说明(2021年)某计算机系统页面大小为 4K,进程 P1 的页面变换表如下图示,看 P1 要访问数据的逻辑地址为十六进制 1B1AH,那么该逻辑地址经过变换后,其对应的物理地址应为十六进制&…

【记录42】centos 7.6安装nginx教程详细教程

环境:腾讯云centos7.6 需求:安装nginx-1.24.0 1. 切入home文件 cd home 2. 创建nginx文件 mkdir nginx 3. 切入nginx文件 cd nginx 4. 下载nginx安装包 wget https://nginx.org/download/nginx-1.24.0.tar.gz 5. 解压安装包 tar -zxvf nginx-1.24.0.…