NLP的tokenization

GPT3.5的tokenization流程如上图所示,以下是chatGPT对BPE算法的解释:

BPE(Byte Pair Encoding)编码算法是一种基于统计的无监督分词方法,用于将文本分解为子词单元。它的原理如下:

1. 初始化:将文本中的每个字符视为一个单词,并统计每个字符出现的频率。这些字符可以是字母、标点符号或其他任意字符。

2. 统计频率:在每次迭代中,计算每对相邻字符(或字符序列)的频率,并记录最常出现的一对。

3. 合并频率最高的一对:将频率最高的字符对合并成一个新的字符(或字符序列),并将其作为新的单词。同时,更新字符频率统计。

4. 重复步骤2和3:重复执行步骤2和3,直到达到预定的子词数量或达到指定的迭代次数。

5. 构建词表:将合并得到的字符组合形成的新单词添加到词表中。

6. 分词:使用得到的词表将文本分解为子词单元。

BPE算法的核心思想是通过反复合并频率最高的字符对来构建子词单元。这样做的好处是可以将常见的词汇合并为一个单元,同时也能够处理未登录词(OOV)问题,即将未在训练集中出现过的词拆解为可识别的子词。

BPE算法的优点是可以自适应地根据数据集构建词表,而不需要依赖外部词典。它在机器翻译、文本生成等自然语言处理任务中得到广泛应用。

BPE采用了一种贪婪的思想来生成token,以下博客举例解释了BPE算法的迭代过程

理解NLP最重要的编码方式 — Byte Pair Encoding (BPE),这一篇就够了 - 知乎在machine learning,尤其是NLP的算法面试时,Byte Pair Encoding (BPE) 的概念几乎成了一道必问的题,然而尴尬的是,很多人用过,却未必十分清楚它的概念(调包大法好)。本文将由浅入深地介绍BPE算法背后的思想…https://zhuanlan.zhihu.com/p/424631681

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/73903.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker vs. Kubernetes:选择合适的场景

在决定使用 Docker 还是 Kubernetes 之前,让我们看看一些实际的场景,以便更好地理解它们的适用性。 使用 Docker 的场景 假设您正在开发一个微服务应用程序,其中每个微服务都需要一些特定的依赖项和环境。在这种情况下,Docker 是一…

CSS 背景属性

前言 背景属性 属性说明background-color背景颜色background-image背景图background-repeat背景图平铺方式background-position背景图位置background-size背景图缩放background-attachment背景图固定background背景复合属性 背景颜色 可以使用background-color属性来设置背景…

opencv直方图与模板匹配

import cv2 #opencv读取的格式是BGR import numpy as np import matplotlib.pyplot as plt#Matplotlib是RGB %matplotlib inline def cv_show(img,name):cv2.imshow(name,img)cv2.waitKey()cv2.destroyAllWindows() 直方图 cv2.calcHist(images,channels,mask,histSize,ran…

Web菜鸟入门教程 - Swagger实现自动生成文档

如果是一个人把啥都开发了,那用不到Swagger-UI,但一般情况是前后端分离的,所以就需要告诉前端开发人员都有哪些接口,传入什么参数,怎么调用,返回什么。有了Swagger-UI就能把这部分文档编写的业务给省去了。…

高效反编译luac文件

对于游戏开发人员,有时候希望从一些游戏apk中反编译出源代码,进行学习,但是如果你触碰到法律边缘,那么你要非常小心。 这篇文章,我针对一些用lua写客户端或者服务器的编译过的luac文件进行反编译,获取其源代码的过程。 这里我不赘述如何反编译解压apk包的过程了,只说重点…

Spring解决循环依赖问题

一、什么是循环依赖? 例如,就是A对象依赖了B对象,B对象依赖了A对象。(下面的代码属于属性的循环依赖,也就是初始化阶段的循环依赖,区别与底下构造器的循环依赖) // A依赖了Bclass A{public B b;…

深入理解 go协程 调度机制

Thread VS Groutine 这里主要介绍一下Go的并发协程相比于传统的线程 的不同点: 创建时默认的stack大小 JDK5 以后Java thread stack默认大小为1MC 的thread stack 默认大小为8MGrountine 的 Stack初始化大小为2K 所以Grountine 大批量创建的时候速度会更快 和 …

Photoshop制作漂亮光泽感3D按钮

原文链接(https://img-blog.csdnimg.cn/45472c07f29944458570b59fe1f9a0e0.png)

【数据结构与算法】十大经典排序算法-归并排序

🌟个人博客:www.hellocode.top 🏰Java知识导航:Java-Navigate 🔥CSDN:HelloCode. 🌞知乎:HelloCode 🌴掘金:HelloCode ⚡如有问题,欢迎指正&#…

在vue中使用swiper轮播图(搭配watch和$nextTick())

在组件中使用轮播图展示图片信息: 1.下载swiper,5版本为稳定版本 cnpm install swiper5 2.在组件中引入swiper包和对应样式,若多组件使用swiper,可以把swiper引入到main.js入口文件中: import swiper/css/swiper.css //引入swipe…

Redis基础概念和数据类型详解

目录 1.什么是Redis? 2.为什么要使用Redis? 3.Redis为什么这么快? 4.Redis的使用场景有哪些? 5.Redis的基本数据类型 5.1 5种基础数据类型 5.1.1 String字符串 5.1.2 List列表 5.1.3 Set集合 5.1.4 Hash散列 5.1.5 Zset有序集…

如何修复损坏的DOC和DOCX格式Word文件?

我们日常办公中,经常用到Word文档。但是有时会遇到word文件损坏、无法打开的情况。这时该怎么办?接着往下看,小编在这里就给大家带来最简单的Word文件修复方法! 很多时候DOC和DOCX Word文件会无缘无故的损坏无法打开,一…