文心、讯飞、ChatGPT大模型横向比较

三种大模型的横向比较分析发现,大模型最终的优异表现依赖于模型规模的突破。

通过比较不同规模的大模型,分析发现大模型的强大生成能力主要源自模型的参数量级的飞跃。尽管方法论上大同小异,但参数量的指数级增长是实现质的飞跃的关键所在。“大力出奇迹”可以说是大模型取得辉煌成就的最本质原因。模型越大,所包含的知识量和拟合复杂分布的能力就越强,也就能产生越逼真的生成结果。

文心一言

https://yiyan.baidu.com/

文字理解回答能力

3月17日
6月6日

海报设计
假如你是一名海报设计师,需要给浦发银行设计一个宣传海报。
浦发银行要举办 2023上海半程马拉松,活动时间:2023年3月9日到2023年3月31日;活动内容:
活动期间在上马APP或官网,通过支付宝绑定浦发银行借记卡支付报名费,可享受立减60元优惠
在这里插入图片描述

社会关系推理

小明的爸爸妈妈结婚,没有邀请小明,小明会生气么?

在这里插入图片描述

讯飞星火

 https://xinghuo.xfyun.cn/

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

海报设计

假如你是一名海报设计师,需要给浦发银行设计一个宣传海报。
浦发银行要举办 2023上海半程马拉松,活动时间:2023年3月9日到2023年3月31日;活动内容:
活动期间在上马APP或官网,通过支付宝绑定浦发银行借记卡支付报名费,可享受立减60元优惠

在这里插入图片描述
社会关系推理

小明的爸爸妈妈结婚,没有邀请小明,小明会生气么?
在这里插入图片描述

ChatGPT

在这里插入图片描述

小明的爸爸妈妈结婚,没有邀请小明,小明会生气么?

在这里插入图片描述

BERT大模型原理

• 2018年,Google推出了Bert 模型,碾压了以往的所有模型,在各种NLP的建模任务中取得了最佳的成绩 => NLP 领域步入 LLM 时代。

在这里插入图片描述

BERT采用完形填空作为预训练:

在这里插入图片描述
空格处填什么字,受到上下文影响Bert的预训练 就是从大规模的上亿文本预料中,随机Mask一部分字,形成上面的完形填空题。通过训练,让模型具备从大量的数据中学习复杂的上下文联系的能力。

ERNIE大模型原理

ERNIE 1.0的改进:

基于phrase (比如短语a series of等)的mask策略基于entity (比如人名,位置,组织,产品等名词比如Tsinghua University, J. K. Rowling)的mask 策略相比于BERT 基于字的mask,在ERNIE 当中,由多个字组成的phrase 或者entity 当成统一单元,统一被mask。这样可以潜在的学习到知识的依赖。

ERNIE 2.0

在ERNIE 2.0 中,提出了一个预训练框架,可以在大型数据集合中进行增量训练,即连续学习(Continual Learning)连续学习的目的是在一个模型中顺序训练多个不同的任务,这样可以在学习下个任务中,记住前一个学习任务学习到的结果。
使用连续学习 => 不断积累新的知识

在这里插入图片描述
ERNIE 3.0

知识增强的大规模预训练模型结合了自回归网络和自编码网络,这样训练出来的模型就可以通过zero-shot学习、few-shot学习或微调来处理自然语言理解和生成任务用100亿个参数对大规模知识增强模型进行预训练,并在自然语言理解和自然语言生成任务上进行了一系列的实验评估ERNIE 3.0在54项基准测试中以较大的优势胜过最先进的模型,并在SuperGLUE基准测试中取得了第一名。

ERNIE预训练模型:https://github.com/PaddlePaddle/ERNIE

在这里插入图片描述

GPT大模型原理

GPT 与 BERT的区别:
• Bert 使用 Encoder 编码器进行训练,适合文本理解
• GPT 使用 Decoder 解码器,更适合文本生成领域

GPT-1 略逊色于 Bert,当时Bert影响力更大
在这里插入图片描述

GPT-2 模型:
• Bert霸榜NLP之后,又有很多新模型推出,比如:ERNIE, ALBert, BART, XLNET, T5等。
• Bert预训练主要是完形填空,和预测下一个句子。后来很多模型增加了 多个预训练任务句子打乱顺序再排序、选择题、判断题、改错题、甚至把机器翻译、文本摘要、领域问答都放到了预训练任务中=> 模型类似人脑,多种任务:看新闻,听音乐,读古诗,写文章,做数学题等

GPT-3 模型:

  • GPT-3模型参数量是1750亿,计算量是 bert-base的1000倍,在NLP多个任务中表现优秀,比如写SQL语句,JavaScript代码。

  • GPT-3的训练覆盖了STEM、人文科学、社会科学、数学、历史、法律等57门学科。难度从初级到高级专业水平不等。在这个基础上1750亿参数的GPT-3模型达到了43.9%准确率,而130亿参数的模型只有25%的准确率

大力出奇迹,参数量越大,效果越好

  • Prompt引导学习的方式,在超大模型上有很好的效果:只需要给出one-shot 或者few-shot,模型就能照猫画虎地给出正确答案。

这里10多亿参数的大模型是不行的,1000亿以上参数的模型效果好。

在这里插入图片描述

我是独立开源软件开发者,SolidUI作者,对于新技术非常感兴趣,专注AI和数据领域,如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/337754.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

刷题第十五天-存在重复元素Ⅲ

存在重复元素Ⅲ 题目要求 解题思路 主要使用滑动窗口方法,让滑动窗口代销固定为t。 本题最大的难点在于快速地找到滑动窗口内的最大值和最小值,以及删除指定元素。 如果遍历求滑动窗口内的最大值和最小值,时间复杂度是O(K&#…

openeuler的安装和两台linux主机配置ssh实现互相免密登陆

一、openeuler的安装 下载OpenEuler - 网址:https://www.openeuler.org/zh/download/archive/ - 版本选择:openEuler 22.03 LTS SP2 (镜像文件) ,即长期更新版 设置自定义硬件 内存:推荐2GB 处理器&…

基于JavaWeb+BS架构+SpringBoot+Vue校园一卡通系统的设计和实现

基于JavaWebBS架构SpringBootVue校园一卡通系统的设计和实现 文末获取源码Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏Java项目精品实战案例《500套》 源码获取 文末获取源码 Lun文目录 第一章 概述 4 1.1 研究背景 4 1.2研究目的及意义 4 1.3国内外发展现状 4 1…

从0开始学Git指令(2)

从0开始学Git指令 因为网上的git文章优劣难评,大部分没有实操展示,所以打算自己从头整理一份完整的git实战教程,希望对大家能够起到帮助! 工作区(Working Directory) 就是你在电脑里能看到的目录&#x…

怎么给IP证书更换IP地址

IP证书是由CA认证机构颁发的一种数字证书,可以为只有公网IP地址的网站提供数据加密服务。事实上,IP证书不仅可以提供加密传输服务,还可以验证网站的身份,保证数据传输的安全性。相对于传统基于域名的SSL证书,IP证书无需…

Spark Core--加强

RDD的持久化 RDD缓存 当RDD被重复使用,或者计算该RDD比较容易出错,而且需要消耗比较多的资源和时间的时候,我们就可以将该RDD缓存起来。 主要作用: 提升Spark程序的计算效率 注意事项: RDD的缓存可以存储在内存或者是磁盘上,甚至…

整形数据在内存中的存储(C语言)

整形数据在内存中的存储 1.整形家族2.(原码、反码、补码)基础知识3.大小端3.1 什么是大小端3.2 为什么有大端和小端3.3 一道关于大小端字节序的面试题3.4 关于整形数据存储的题目(7题)3.4.13.4.23.4.33.4.43.4.53.4.63.4.7 4.总结 1.整形家族 signed可省可不省,一般…

Linux的网络服务DHCP

一.了解DHCP服务 1.1 DHCP定义 DHCP(动态主机配置协议)是一个局域网的网络协议。指的是由服务器控制一段IP地址范围,客户机登录服务器时就可以自动获得服务器分配的IP地址和子网掩码。默认情况下,DHCP作为Windows Server的一个服…

搭建Windows版Redis集群

redis集群 Redis单机版安装 链接: Redis官网下载地址 下载完成后解压至指定目录 打开一个 cmd 窗口 使用 cd 命令切换目录到 E:\Redis\Redis 运行: redis-server.exe redis.windows.confRedis集群的安装 1.构建集群节点目录 创建一个redis-cluster目录用于存放…

Container ansible disguises local ansible 【容器 ansible 伪装本地 ansible】

预备条件: ctr & crictl $ nerdctl & containerd install了解 kubespray 是什么 kubespray 包含 ansible、ansible-playbook命令以及通过kubespray项目安装kubernetes集群的介质。 nerdctl pull quay.io/kubespray/kubespray:v2.23.1 nerdctl save -o qu…

二叉树基础oj练习(单值二叉树、相同的树、二叉树的前序遍历)

讲了这么多数据结构相关的知识(可以看我的数据结构文章专栏): 抓紧刷题巩固一下了 目录 1.单值二叉树 题目描述 思路1 代码1 思路2 代码2 2.相同的树 题目描述 思路 代码 3.二叉树的前序遍历 代码 思路 1.单值二叉树 965. 单值二叉树 - 力扣(LeetCod…

67个你可能不知道的神奇的浏览器调试技巧

67个你可能不知道的神奇的浏览器调试技巧 一系列有用的、不明显的技巧,可帮助您充分利用浏览器的调试器。假设对开发人员工具有中级或更高的了解。 Advanced Conditional Breakpoints 高级条件断点 通过在您意想不到的地方使用具有副作用的表达式,我们…