GPT3学习笔记

GPT-3概述

关于GPT-3的主要事实:

  • 模型分类:GPT-3有8个不同的模型,参数从1.25亿到1750亿不等。

  • 模型大小:最大的GPT-3模型有1750亿参数。这比最大的BERT模型大470倍(3.75亿个参数)

  • 体系结构:GPT-3是一种自回归模型,使用仅有解码器的体系结构。使用下一个单词预测目标进行训练

  • 学习方式:GPT-3通过很少的学习,学习时没有梯度更新

需要训练数据:GPT-3需要较少的训练数据。它可以从非常少的数据中学习,这使得它的应用程序可以用于数据较少的领域
在这里插入图片描述
关键假设:

  • 模型规模的增加和对更大数据的训练可以导致性能的提高
  • 单一模型可以在许多NLP任务上提供良好的性能。
  • 模型可以从新数据中推断,不需要进行微调
  • 该模型可以解决从未训练过的数据集上的问题。

早期的预训练模型-微调:
在这里插入图片描述

  • GPT-3采用了不同的学习方法。不需要大量标记数据来推断新问题。
  • 相反,它可以不从数据(零次学习 Zero-Shot Learning )中学习,只从一个例子(一次学习 one-Shot Learning)或几个例子(few-Shot Learning)中学习。

与Bert进行对比:
在这里插入图片描述
最显著的3个特征

  1. Size:GPT-3的大小是其突出的特点。它几乎是最大的BERT模型的470倍
  2. Structure:在架构方面,BERT仍然处于领先地位。它是一种经过训练能够更好地捕捉不同问题语境下文本之间的潜在关系。,它是基于概率的,一个一个的输出
  3. Method:GPT-3学习方法相对简单,可以应用于很多没有足够数据的问题。因此,与BERT相比,GPT-3应该有更广泛的应用。

突破的两大功能

  • 文本生成
  • 使用有限的数据构建NLP解决方案

各个任务的表现:

  • 语言建模:GPT-3在纯语言建模任务上击败了所有的基准。

  • 机器翻译:对于需要将文档转换成英语的翻译任务,该模型的性能优于基准测试。但是如果需要将语言从英语翻译为非英语,那么情况就不一样了,GPT-3的性能也会出现问题。

  • 阅读理解:GPT 3模型的性能远远低于这里的技术水平。

  • 自然语言推理:自然语言推理(NLI)关注理解两个句子之间的关系的能力。GPT 3模型在NLI任务中的表现很差

  • 常识推理:常识推理数据集测试物理或科学推理技能的表现。GPT 3模型在这些任务上的表现很差

GPT3的问题

  • GPT3是一个混合模型,可能在预训练的定制模型上性能会输掉
  • 对模型偏差和可解释性的担忧:考虑到GPT-3的庞大规模,公司将很难解释该算法做出的决策
  • 需要制定规章以防止滥用:如果没有得到适当的管制

图解详细理解

知乎图解文章

  • 直接预测下一个单词,而不是根据上下文和掩码来预测
  • 一次生成一个token,迭代生成
  • 175亿参数

GPT3为2048个token。这就是它的“上下文窗口”。这意味着它有2048条轨道,沿着这些轨道处理token。
在这里插入图片描述

具体如何处理:

  • 让我们跟随紫色的轨道。系统如何处理“robotics”一词并产生“ A”?

步骤:

  • 将单词转换为代表单词的向量(数字列表)
  • 计算预测
  • 将结果向量转换为单词
    在这里插入图片描述
  • GPT3的重要计算发生在其96个Transformer解码器层的堆栈内部。这些层中的每一层都有其自己的1.8B参数进行计算。那就是“魔术”发生的地方。这是该过程的高级视图:
    在这里插入图片描述
    在这里插入图片描述

论文精读

三大核心:Fine-Tuning、Few-Shot、One-Shot

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/2217.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

升哲科技受邀出席第十四届夏季达沃斯论坛

6月27日至29日,第十四届夏季达沃斯论坛将在天津举办,国务院总理李强将出席论坛,并在开幕式上发表特别致辞。 升哲科技(SENSORO)创始人兼CEO赵武阳作为中国新生代商业领袖代表,受邀参加开幕式以及主论坛&am…

#10044 「一本通 2.2 例 2」Power Strings(KMP)(内附封面)

题目描述 原题来自:POJ 2406 给定若干个长度 \le 10^6 的字符串,询问每个字符串最多是由多少个相同的子字符串重复连接而成的。如:ababab 则最多有 3 个 ab 连接而成。 输入格式 输入若干行,每行有一个字符串。特别的&#xf…

MATLAB基础知识

MATLAB 基础知识 MATLAB是一个大型运算平台,参与运算的对象有数据流、信号流、逻辑关系等。如同计算器一样,在MATLAB中数学式的计算是直截了当的。但要了解这个大型计算器的使用方法并合理使用它,就先要了解一些MATLAB的基础知识。本章是整个…

Spring 更简单的读取和存储对象、使用注解存取对象

文章目录 1.前言2.存储 Bean对象2.1 前置任务:配置扫描路径(重中之重)2.2 添加注解存储 Bean 对象2.2.1 类注解2.2.2 方法注解 Bean 3.获取 Bean对象3.1 属性注入3.2 构造方法注入3.3 Setter 注⼊3.4 三种注释的优缺点3.5 另⼀种注⼊关键字&a…

全志V3S嵌入式驱动开发(spi-nand image制作)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 上一篇文章,我们说到了spi-nor image的制作和输入。相比较spi-nor,spi-nand虽然在稳定性上面差一点,但是价格上面有很大的优势。举例来说,一般32M的spi-nor大约在6-7元左右,但…

SpringBoot 中使用 JWT 案例分享详解

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

改进YOLOv5/YOLOv8:复现结合即插即用 | 高效多尺度注意力(EMA),模块成为YOLOv5改进的小帮手

高效多尺度注意力(EMA) 论文介绍简介EMA模块图像分类实验目标检测实验yolov5加入方法yolo注册yaml文件yolov8加入方法EMA代码及加入方式yaml文件1EMA注意力论文 https://arxiv.org/ftp/arxiv/papers/2305/2305.13563.pdf 论文介绍 通道或空间的显著有效性 注意机制对产生更多…

Ubuntu环境下读取罗技G29方向盘信息

本篇博客最早发布于实验室公共博客,但已无人维护,现迁移至个人博客 引言 实验室有这么酷的驾驶设备,来了一年还没有实际操作过,早就蠢蠢欲试了,哈哈哈不过之前负责的师兄还在就一直没敢用,现在他毕业了就可…

Find My资讯|苹果Find My技术应用于车内丢失设备

美国专利商标局正式授予苹果两项泰坦项目新专利,分别是扩展其针对车内丢失设备的“Find My”设备服务,以及用于自动驾驶汽车的高级传感器系统,其中传感器系统还涵盖了带有摄像头系统的车辆,而摄像头系统除可3D重建场景之外&#x…

【独家揭秘】微信可以自动加好友自动打招呼啦!

最近客户好友做某书内容爆了,每天都引流很多人来加他的微信,基本每天都需要花大量时间去通过好友,导致没有时间去做后续的维护发展客户,于是找到我大吐苦水,问我有什么办法可以解决? 嘿,这不巧了…

参与 2023 第二季度官方 Flutter 开发者调查

Flutter 3.10 已经正式发布,每个季度一次的 Flutter 开发者调查也来啦!邀请社区的各位成员们填写: 调研旨在了解你对 Flutter 的满意程度以及对其各个子系统的反馈。你的意见将对我们改进 Flutter 的功能和性能产生重要影响。 在这次调研中&a…

抖音最新版本抓包

1.下载fiddler抓包工具 2.配置https抓包环境 3.抓包工具配置好了之后,我们确保手机和电脑在同一个局域网中 4.打电脑CMD 输入 ipconfig 查看电脑的ip地址 5.打开我们的手机设置代理 6.打开浏览器 输入:你的电脑ip:8888 下载证书 7.打开Re文件管理器(ps…