【LLM 】7个基本的NLP模型，为ML应用程序赋能-编程知识

【LLM 】7个基本的NLP模型，为ML应用程序赋能

news/2025/3/10 4:46:47/文章来源:https://blog.csdn.net/jiagoushipro/article/details/135322382

An overview of the 7 NLP models.

在上一篇文章中，我们已经解释了什么是NLP及其在现实世界中的应用。在这篇文章中，我们将继续介绍NLP应用程序中使用的一些主要深度学习模型。

BERT

来自变压器的双向编码器表示（BERT）由Jacob Devlin在2018年的论文《BERT:用于语言理解的深度双向变压器的预训练》中首次提出。
BERT模型的主要突破是，它在训练过程中查看文本时，以双向方式扫描文本，而不是从左到右或从左到左和从右到左的组合序列。
BERT一般有两种类型：BERT（基本）和BERT（大）。不同之处在于可配置参数：基本参数为1100万，大参数为3.45亿。

XLNet

XLNet于2019年发表在论文《XLNet：语言理解的广义自回归预训练》中。
XLNet在20次基准测试中以很大的优势优于BERT，因为它利用了自回归模型和双向上下文建模的最佳效果。XLNet采用了一种新提出的建模方法，称为“置换语言建模”。
与基于前一个标记的上下文预测句子中单词的语言模型中的传统标记化不同，XLNet的置换语言建模考虑了标记之间的相互依赖性。
XLNet的性能测试结果比BERT提高了2-15%。

RoBERTa

RoBERTa是在2019年的论文《RoBERTa：一种稳健优化的BERT预训练方法》中提出的。
RoBERTa对BERT的体系结构和培训程序进行了更改。具体而言，RoBERTa删除了下一句预测（NSP）目标，使用了比BERT大得多的数据集，并用动态掩蔽取代了静态掩蔽。
RoBERTa的性能测试结果比BERT提高了2-20%。

ALBERT

ALBERT模型是在2019年的论文《ALBERT:语言表征自我监督学习的精简BERT》中提出的。
ALBERT是在BERT模型的基础上开发的。它的主要突破是显著降低了参数，但与BERT相比保持了相同的性能水平。
在ALBERT中，参数在12层变压器编码器之间共享，而在原始BERT中每层编码器都有一组唯一的参数。

StructBERT

StructBERT是在2019年的论文《StructBERT:将语言结构纳入深度语言理解的预训练》中提出的。
StructBERT通过将语言结构纳入训练过程，进一步扩展了BERT。
StructBERT还引入了单词结构目标（WSO），它有助于模型学习单词的排序。

T5

T5是在2019年的论文《用统一的文本到文本转换器探索迁移学习的极限》中介绍的。T5是“文本到文本传输转换器”的缩写。
T5发布了一个干净、庞大、开源的数据集C4（Colossal clean Crawled Corpus）。
T5将所有NLP任务分类为“文本到文本”任务。
T5型号有五种不同尺寸，每种型号都有不同数量的参数：T5小型（6000万个参数）、T5基础（2.2亿个参数），T5大型（7.7亿个参数。

ELECTRA

ELECTRA是在2020年的论文“ELECTRA:将文本编码器预训练为鉴别器而非生成器”中提出的。
ELECTRA提出了一种新的预训练框架，它结合了生成器和鉴别器。
ELECTRA将掩蔽语言模型的训练方法改为替换标记检测。
ELECTRA在小型模型上表现更好。

本文：【LLM 】7个基本的NLP模型，为ML应用程序赋能 | 开发者开聊

自我介绍

做一个简单介绍，酒研年近48 ，有20多年IT工作经历，目前在一家500强做企业架构．因为工作需要，另外也因为兴趣涉猎比较广，为了自己学习建立了三个博客，分别是【全球IT瞭望】，【架构师研究会】和【开发者开聊】，有更多的内容分享，谢谢大家收藏。
企业架构师需要比较广泛的知识面，了解一个企业的整体的业务，应用，技术，数据，治理和合规。之前4年主要负责企业整体的技术规划，标准的建立和项目治理。最近一年主要负责数据，涉及到数据平台，数据战略，数据分析，数据建模，数据治理，还涉及到数据主权，隐私保护和数据经济。因为需要，比如数据资源入财务报表，另外数据如何估值和货币化需要财务和金融方面的知识，最近在学习财务，金融和法律。打算先备考CPA，然后CFA，如果可能也想学习法律，备战律考。
欢迎爱学习的同学朋友关注，也欢迎大家交流。全网同号【架构师研究会】

欢迎收藏【全球IT瞭望】，【架构师酒馆】和【开发者开聊】.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/314392.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

前缀和算法 -- [模版]一维前缀和

前缀和算法 -- [模版]一维前缀和

个人主页：Lei宝啊愿所有美好如期而遇目录本题链接输入描述输出描述算法分析算法一：暴力求解算法二：前缀和预处理前缀和dp表使用前缀和dp表解题源码我们以一道题目为例详解一维前缀和原理。本题链接【模板】前缀和…

阅读更多...

DICOM医学图像浏览器

DICOM医学图像浏览器

各位医疗IT的小伙伴们大家好，近期打算换一份工作，于是利用业余时间，结合自己的所学，参考小蚂蚁的界面，编写了一款医学图像浏览器。开发环境：vs2013、QT5.8、DCMTK3.6.7、VTK8.1.2、OpenCV2.4.10 下面简单…

阅读更多...

【面向对象项目之图书馆管理系统】

【面向对象项目之图书馆管理系统】

项目需求不同的用户有不同的菜单，然后进行操作。设计思路通过需求我们可以提取图书类，书架类图书类存放图书的基本信息，书架类存放书本及其它的数量，以及操作图书的方法等等。接口类（用来操作书架里面的图书&…

阅读更多...

LeetCode74二分搜索优化：二维矩阵中的高效查找策略

LeetCode74二分搜索优化：二维矩阵中的高效查找策略

题目描述力扣地址给你一个满足下述两条属性的 m x n 整数矩阵： 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。给你一个整数 target ，如果 target 在矩阵中，返回 true ；否则&…

阅读更多...

PE解释器之前期准备工作

PE解释器之前期准备工作

一：什么是PE解释器 PE解释器通常指的是Portable Executable（PE）文件格式的解释器。PE是一种可执行文件和库文件的标准格式，主要用于32位和64位版本的Windows操作系统。PE文件包含程序的二进制代码、数据、资源以及与可执行文件相关…

阅读更多...

RK3568平台 Android13 GKI架构开发方式

RK3568平台 Android13 GKI架构开发方式

一.GKI简介 GKI：Generic Kernel Image 通用内核映像。 Android13 GMS和EDLA认证的一个难点是google强制要求要支持GKI。GKI通用内核映像，是google为了解决内核碎片化的问题，而设计的通过提供统一核心内核并将SoC和板级驱动从核心内核移至可加…

阅读更多...

2024年山东省中职“网络安全”试题——B-3：Web安全之综合渗透测试

2024年山东省中职“网络安全”试题——B-3：Web安全之综合渗透测试

B-3：Web安全之综合渗透测试服务器场景名称：Server2010（关闭链接） 服务器场景操作系统："需要环境有问题加q" 使用渗透机场景Kali中的工具扫描服务器，通过扫描服务器得到web端口，登陆…

阅读更多...

envoy在arm机器上的编译整理

envoy在arm机器上的编译整理

版本信息： 操作系统:GUN Linux操作系统AARCH64架构。istio-proxy版本：istio-proxy1.15.2 编译环境搭建： 设置代理，确保可以访问Google等外网，这里envoy的第一次编译需要从外网下载依赖库。// 备注：这里一定…

阅读更多...

爬虫实战-微博评论爬取

爬虫实战-微博评论爬取

简介最近在做NLP方面的研究，以前一直在做CV方面。最近由于chatgpt，所以对NLP就非常感兴趣。索性就开始研究起来了。其实我们都知道，无论是CV方向还是NLP方向的模型实现，都是离不开数据的。哪怕是再先进的代码，都是…

阅读更多...

深度学习｜3.6 激活函数 3.7 为什么需要非线性激活函数

深度学习｜3.6 激活函数 3.7 为什么需要非线性激活函数

激活函数主要有sigmoid函数、tanh函数、relu函数和leaky relu函数 tanh函数相比sigmoid函数是具有优势的，因为tanh函数使得输出值的平均值为0，而sigmoid函数使得输出值的平均值为1/2，对下一层来说tanh输出的0更好进行处理。激活函数tanh…

阅读更多...

Debezium发布历史40

Debezium发布历史40

原文地址： https://debezium.io/blog/2018/09/20/materializing-aggregate-views-with-hibernate-and-debezium/ 欢迎关注留言，我是收集整理小能手，工具翻译，仅供参考，笔芯笔芯. 使用 Hibernate 和 Debezium 实现聚合…

阅读更多...

【排序算法】【二叉树】【滑动窗口】LeetCode220: 存在重复元素 III

【排序算法】【二叉树】【滑动窗口】LeetCode220: 存在重复元素 III

作者推荐【二叉树】【单调双向队列】LeetCode239:滑动窗口最大值本文涉及的基础知识点 C算法：滑动窗口总结题目给你一个整数数组 nums 和两个整数 indexDiff 和 valueDiff 。找出满足下述条件的下标对 (i, j)： i ! j, abs(i - j) < indexDi…

阅读更多...

推荐文章

最新文章