[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs-编程知识

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

news/2025/2/25 21:54:41/文章来源:https://blog.csdn.net/zhangyifeng_1995/article/details/135733746

RNN存在信息瓶颈的问题。
注意力机制的核心就是在decoder的每一步，都把encoder的所有向量提供给decoder模型。
在这里插入图片描述

具体的例子

先获得encoder隐向量的一个注意力分数。

在这里插入图片描述

注意力机制的各种变体

一：直接点积
二：中间乘以一个矩阵
三：Additive attention：使用一层前馈神经网络来获得注意力分数
…

Transformer概述

在这里插入图片描述

输入层

BPE（Byte Pair Encoding)

在这里插入图片描述
BPE提出主要是为了解决OOV的问题：会出现一些在词表中没有出现过的词。

在这里插入图片描述

位置编码Positional Encoding

在这里插入图片描述

Transformer Block

在这里插入图片描述

attention层

在这里插入图片描述
不进行scale，则方差会很大。则经过softmax后，有些部分会很尖锐，接近1。

在这里插入图片描述

多头注意力机制

在这里插入图片描述

Transformer Decoder Block

mask保证了文本生成是顺序生成的。
在这里插入图片描述

其他Tricks

在这里插入图片描述

Transformer的优缺点

缺点：模型对参数敏感，优化困难；处理文本复杂度是文本长度的平方数量级。
在这里插入图片描述

预训练语言模型PLM

预训练语言模型学习到的知识可以非常容易地迁移到下游任务。
word2vec是第一个预训练语言模型。现在绝大多数语言模型都是基于Transformer了，如Bert。

PLMs的两种范式

1.feature提取器：预训练好模型后，feature固定。典型的如word2vec和Elmo
2.对整个模型的参数进行更新
在这里插入图片描述

GPT

在这里插入图片描述

BERT

不同于GPT，BERT是双向的预训练模型。使用的是基于Mask的数据。
它的最主要的预训练任务是预测mask词。
还有一个是预测下一个句子。

在这里插入图片描述

PLMs after BERT

BERT的问题：
尽管BERT采用了一些策略，使mask可能替换成其他词或正确词。但是这并没有解决mask没有出现在下游任务。
预训练效率低。
窗口大小受限。
在这里插入图片描述

相关改进工作

RoBERTa指出bert并没有完全训练。它可以被训练得更加鲁棒。
在这里插入图片描述

在这里插入图片描述

MLM任务的应用

跨语言对齐

在这里插入图片描述

跨模态对齐

在这里插入图片描述

PLM前沿

GPT3

在这里插入图片描述

T5

统一所有NLP任务为seq to seq的形式

MoE

每次模型调用部分子模块来处理。涉及调度，负载均衡。
在这里插入图片描述

Transformers教程

介绍

在这里插入图片描述

使用Transformers的Pipeline

在这里插入图片描述

Tokenization

在这里插入图片描述

常用API

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/421616.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

mybatisPlus注解将List集合插入到数据库

mybatisPlus注解将List集合插入到数据库

1.maven引入依赖（特别注意版本，3.1以下不支持） <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.4.3.1</version></dependency&g…

阅读更多...

京东云开发者DDD妙文欣赏（2）报菜名和化繁为简的创新

京东云开发者DDD妙文欣赏（2）报菜名和化繁为简的创新

DDD领域驱动设计批评文集做强化自测题获得“软件方法建模师”称号《软件方法》各章合集京东云开发者原文链接：DDD落地实践-架构师眼中的餐厅>>，以下简称《餐厅》。我截图时，阅读量有6044，在同类文章中已经算是热文了…

阅读更多...

re:从0开始的HTML学习之路 2. HTML的标准结构说明

re:从0开始的HTML学习之路 2. HTML的标准结构说明

1. <DOCTYPE html> 文档声明，用于告诉浏览器，当前HTML文档采用的是什么版本。必须写在当前HTML文档的首行（可执行代码的首行） HTML4的此标签与HTML5不同。 2. <html lang“en”> 根标签，整个HTML文档中…

阅读更多...

Minio搭建和使用

Minio搭建和使用

目前可用于文件存储的网络服务选择也有不少，比如阿里云OSS、七牛云、腾讯云等等，可是收费都有点小贵。为了节约成本，很多公司使用MinIO做为文件服务器。 MinIO是一个开源的分布式对象存储服务器，支持S3协议并且可以在多节点上实现…

阅读更多...

曲线生成 | 图解三次样条曲线生成原理(附ROS C++/Python/Matlab仿真)

曲线生成 | 图解三次样条曲线生成原理(附ROS C++/Python/Matlab仿真)

目录 0 专栏介绍1 什么是样条？2 三次样条曲线原理2.1 曲线插值2.2 边界条件2.3 系数反解 3 算法仿真3.1 ROS C仿真3.2 Python仿真3.3 Matlab仿真 0 专栏介绍 🔥附C/Python/Matlab全套代码🔥课程设计、毕业设计、创新竞赛必备！详细…

阅读更多...

Unity中实现捏脸系统

Unity中实现捏脸系统

前言目前市面上常见的捏脸一般是基于BlendShapes和控制骨骼点坐标两种方案实现的。后者能够控制的精细程度更高，同时使用BlendShapes来控制表情。控制骨骼点坐标比如找到控制鼻子的骨骼节点修改localScale缩放，调节鼻子大小。 BlendShapes控制表…

阅读更多...

【GoLang入门教程】Go语言几种标准库介绍(八)

【GoLang入门教程】Go语言几种标准库介绍(八)

ChatGPT 和文心一言哪个更好用？ 文章目录 ChatGPT 和文心一言哪个更好用？强烈推荐前言几种库runtime库 ( 运行时接口)常用的函数：示例 sort库（排序接口）主要的函数和接口：示例 strings库(字符串转换、解析及…

阅读更多...

C++入门【33-C++ 类对象】

C++入门【33-C++ 类对象】

C 在 C 语言的基础上增加了面向对象编程，C 支持面向对象程序设计。类是 C 的核心特性，通常被称为用户定义的类型。类用于指定对象的形式，是一种用户自定义的数据类型，它是一种封装了数据和函数的组合。类中的数据称为成员变量&a…

阅读更多...

肖氏硬度刻度表（Shore hardness scale chart）举例

肖氏硬度刻度表（Shore hardness scale chart）举例

肖氏硬度刻度表（Shore hardness scale chart）举例在选材设计过程中，有时会用到对材料硬度的大体判断，本文简要介绍肖氏硬度刻度表，以供参考。肖氏硬度刻度表1 肖氏硬度刻度表2 肖氏硬度刻度表3 肖氏硬度刻度表4 肖…

阅读更多...

安卓Spinner文字看不清

Holo主题安卓13的Spinner文字看不清，明明已经解决了，又忘记了。 spinner.setOnItemSelectedListener(new Spinner.OnItemSelectedListener() {public void onItemSelected(AdapterView<?> arg0, View arg1, int arg2, long arg3) {TextView textV…

阅读更多...

Cesium叠加超图二维服务、三维场景模型

Cesium叠加超图二维服务、三维场景模型

前言 Cesium作为开源的库要加超图的服务则需要适配层去桥接超图与Cesium的数据格式。这个工作iClient系列已经做好，相比用过超图二维的道友们可以理解：要用Openlayer加载超图二维，那就用iClient for Openlayer库去加载；同样的要用…

阅读更多...

【Linux C | 进程】进程环境 | 什么是进程？进程的开始、终止、存储空间布局、命令行参数、环境变量

【Linux C | 进程】进程环境 | 什么是进程？进程的开始、终止、存储空间布局、命令行参数、环境变量

😁博客主页😁：🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑：🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

阅读更多...

推荐文章

最新文章