大模型进展的主要观点综述

       大模型模式的意义可以用两个词来概括:涌现和同质化。涌现意味着一个系统的行为是隐含诱导的,而不是明确构建的;它既是科学兴奋的源泉,也是对意外后果的一种焦虑。同质化表示在广泛的应用程序中构建机器学习系统的方法的整合;它为许多任务提供了强大的杠杆作用,但也会产生单点故障。为了更好地理解新兴和同质化,让我们回顾一下过去30年来它们在人工智能研究中的崛起。

       人工智能的故事一直是一个不断涌现和同质化的故事。随着机器学习的引入,任务的执行方式从示例中浮现(自动推断);通过深度学习,用于预测的高级特征出现;通过基础模型,甚至出现了上下文学习等高级功能。与此同时,机器学习使学习算法(例如,逻辑回归),深度学习使模型架构同质化(例如,卷积神经网络),并且基础模型使模型本身均匀化(例如,GPT-3)

1、自然语言处理(NLP)任务中形成:大模型在NLP中已经形成,所以我们的故事暂时集中在那里。也就是说,就像深度学习在计算机视觉中普及但存在于计算机视觉之外一样,我们将基础模型理解为人工智能的一般范式,而不是以任何方式特定于NLP2018年底,NLP领域即将经历另一场地震,标志着大模型时代的开始。在技术层面上,基础模型通过迁移学习[Thrun 1998]和规模来实现。

2、迁移学习与预训练和微调:迁移学习的思想是将从一个任务中学到的知识(例如,图像中的对象识别)并将其应用于另一任务(例如,视频中的活动识别)。在深度学习中,预训练是迁移学习的主要方法:模型在代理任务上进行训练(通常只是作为达到目的的手段),然后通过微调适应感兴趣的下游任务。迁移学习使基础模型成为可能,但规模是使它们强大的原因。

   规模化需要三个要素:

1)计算机硬件的改进--例如,GPU吞吐量和内存在过去四年中增加了10;

2Transformer模型架构的开发[Vaswani et al. 2017],该架构利用硬件的并行性来训练比以前更具表达力的模型

3)更多训练数据的可用性。

3、数据的可用性和利用数据能力:不能低估数据的可用性和利用数据的能力的重要性。带标注数据集的迁移学习已经成为至少十年的常见实践,例如,在ImageNet数据集上进行预训练[Deng et al. 2009],用于计算机视觉社区的图像分类。然而,标注的高成本对预训练的好处施加了实际限制。

4、自监督学习:另一方面,在自监督学习中,预训练任务是从未标注的数据中自动导出的。例如,用于训练BERT的掩蔽语言建模任务[Devlin et al. 2019]是在给定其周围上下文的情况下预测句子中缺失的单词(例如,我喜欢豆芽)。自监督任务不仅更具可扩展性,只依赖于未标记的数据,而且它们旨在迫使模型预测部分输入,使其比在更有限的标签空间上训练的模型更丰富,可能更有用。

5、自监督学习在单词嵌入方面取得了相当大的进展[Turian et al. 2010; Mikolov et al. 2013;彭宁顿et al. 2014],它将每个单词与上下文无关的向量相关联,为广泛的NLP模型提供了基础。此后不久,基于自回归语言建模的自监督学习(根据前一个单词预测下一个单词)[Dai and Le 2015]变得流行起来。这产生了在上下文中表示单词的模型,例如GPT [拉德福等人2018],埃尔莫[Peters等人2018]ULMFiT [霍华德和Ruder 2018]

6、自我监督学习的下一波发展- BERT [Devlin等人2019] GPT-2 [拉德福等人2019]RoBERTA [Liu等人2019]T5 [Raffel et al. 2019]BART [刘易斯et al. 2020 a] -迅速跟进,采用Transformer架构,结合更强大的句子深度双向编码器,并扩展到更大的模型和数据集。

7、虽然人们可以纯粹通过自我监督学习的透镜来看待这最后一波技术发展,但BERT的引入是一个社会学转折点。在2019年之前,使用语言模型的自监督学习基本上是NLP的一个子领域,它与NLP的其他发展并行。在2019之后,使用语言模型的自监督学习越来越成为NLP的基础,因为使用BERT已经成为常态。接受单一模型可以用于如此广泛的任务,标志着大模型时代的开始。

8、同质化:大模型导致了前所未有的同质化:几乎所有最先进的NLP模型现在都是从几个基础模型中的一个改编而来的,如BERTRoBERTaBARTT5等。(基础模型的任何改进都可以为整个NLP带来直接的好处),它也是一种责任;所有人工智能系统都可能继承一些基础模型的相同问题偏差[Bolukbasi et al. 2016;卡利斯坎et al. 2017; Abid et al. 2021,阿利亚是]:公平性,伦理学以进行进一步讨论。

9、研究界的同质化:我们也开始看到研究界的同质化。例如,类似的基于变换器的序列建模方法现在应用于文本[Devlin et al. 2019;拉德福et al. 2019; Raffel et al. 2019],图像[Dosovitskiy et al. 2020; Chen et al. 2020 d]、语音[Liu et al. 2020 d]、表格数据[Yin et al. 2020]、蛋白质序列[Rives et al. 2021]、有机分子[Rothchild et al. 2021]、和强化学习[Chen et al. 2021 b; Janner et al. 2021]。这些例子指出了一个可能的未来,我们有一套统一的工具来开发各种模式的基础模型[Tamkin et al. 2021 b]

10、多模态模型的形式同质化:除了方法的同质化之外,我们还看到研究社区之间的实际模型以多模态模型的形式同质化-例如,基于语言和视觉数据训练的基础模型[Luo et al. 2020; Kim et al. 2021 a; Cho et al. 2021; Ramesh et al. 2021;拉德福et al. 2021]。数据在某些领域自然是多模态的,例如,医疗图像、结构化数据、医疗保健中的临床文本。因此,多模态基础模型是融合关于一个领域的所有相关信息的自然方式,并适应也跨越多个模式的任务。基础模型的模式也导致了规模的惊人的出现。例如,GPT-3 [Brown et al. 2020],与GPT-215亿个参数相比,有1750亿个参数,允许上下文学习,其中语言模型可以通过简单地向下游任务提供提示(任务的自然语言描述)来适应下游任务,这是一种既没有专门训练也没有预期出现的新兴属性。

11、同质化和涌现:以一种潜在的令人不安的方式相互作用。同质化可以潜在地为任务特定数据非常有限的许多领域提供巨大的收益-参见在几个这样的领域中呈现的机会(例如,医疗保健,法律,教育);另一方面,模型中的任何缺陷都会被所有适应模型盲目地继承(公平,道德)。由于基础模型的力量来自于它们的涌现特性,而不是它们明确的构造,现有的基础模型很难理解(评估,理论,可解释性),并且它们有意想不到的失败模式安全性,鲁棒性)。由于新兴市场在基础模型的能力和缺陷方面产生了很大的不确定性,因此通过这些模型进行积极的同质化是有风险的。从伦理和人工智能安全的角度来看,消除风险是基础模型进一步发展的核心挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/161216.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python最强自动化神器Playwright!再也不用为爬虫逆向担忧了!

版权说明:本文禁止抄袭、转载,侵权必究! 目录 一、简介+使用场景二、环境部署(准备)三、代码生成器(优势)四、元素定位器(核心)五、追踪查看器(辅助)六、权限控制与认证(高级)七、其他重要功能(进阶)八、作者Info一、简介+使用场景 Playwright是什么?来自Chat…

【ArcGIS微课1000例】0077:ArcGIS生成经纬网(shp格式)

使用ArcGIS制图的时候,可以很方便的生成经纬网、方里网及参考格网,但是在需要shp格式的经纬网,进一步在南方cass中使用经纬网的时候,就需要单独生成了。 如下图所示为全球大陆矢量数据,我们基于该数据来生成全球指定间距的经纬网数据。 在ArcGIS中,生成经纬网和方里网均…

基础Redis-结构与命令

结构与命令 1.基础-Redisa.Redis数据结构介绍b.Redis通用命令c.key的结构d.String类型e.Hash类型f.List类型g.Set类型h.SortedSet类型 1.基础-Redis a.Redis数据结构介绍 Redis是一个key-value的数据库,key一般是String类型,不过value的类型多种多样&a…

网络性能瓶颈分析,让我来说给你听!

在性能测试中,谈到网络问题,其实,在没有特别说明的情况下,我们一般讲的都是 HTTP 协议下的网络瓶颈问题,那,对于这个问题,我们如何来分析呢?计算机中的网络,跟我们现实生…

【技术分享】RK356X Android 使用 libgpiod 测试gpio

前言 libgpiod 是用于与 Linux GPIO 字符设备交互的 C 库和工具库;此项目包含六种命令行工具(gpiodetect、gpioinfo、gpioset、gpioget、gpiomon),使用这些工具可以在命令行设置和获取GPIO的状态信息;在程序开发中也可…

C生万物 | 从浅入深理解指针【第三部分】(qsort的使用和模拟实现)

C生万物 | 从浅入深理解指针【第四部分】(qsort的使用和模拟实现) 文章目录 C生万物 | 从浅入深理解指针【第四部分】(qsort的使用和模拟实现)回调函数是什么?qsort使用举例qsort函数的模拟实现 回调函数是什么&#x…

算法:Java构建二叉树并递归实现二叉树的前序、中序、后序遍历

先自定义一下二叉树的类: // Definition for a binary tree node. public class TreeNode {int val;TreeNode left;TreeNode right;TreeNode() {}TreeNode(int val) { this.val val; }TreeNode(int val, TreeNode left, TreeNode right) {this.val val;this.left…

centos7中多版本go安装

安装go的方式 官网下载tar.gz包安装 # 1.下载tar包 wget https://go.dev/dl/go1.18.1.linux-amd64.tar.gz # 2.解压tar包到指定路径 tar -xvf go1.18.1.linux-amd64.tar.gz -C /usr/local/go1.18 # 3.配置环境变量,打开 /etc/profile 文件添加以下文件每次开机时…

【缓存】Spring全家桶中@CacheEvict无效情况共有以下几种

Spring全家桶中CacheEvict无效情况共有以下几种 一、背景介绍二、原因分析三、解决方案 一、背景介绍 SpringBoot中使用Cacheable注解缓存数据,使用CacheEvict注解删除缓存。但是在项目使用过程中,发现使用CacheEvict注解删除缓存无效。 拓展&#xff…

ElementuiPlus的table组件实现行拖动与列拖动

借助了插件sortablejs。这种方法只适合做非树状table。如果想实现树状table&#xff0c;并且可拖动。可以试一下aggridVue3这个插件 <template><div class"draggable" style"padding: 20px"><el-table row-key"id" :data"t…

【3D图像分割】基于 Pytorch 的 VNet 3D 图像分割3(3D UNet 模型篇)

在本文中&#xff0c;主要是对3D UNet 进行一个学习和梳理。对于3D UNet 网上的资料和GitHub直接获取的代码很多&#xff0c;不需要自己从0开始。那么本文的目的是啥呢&#xff1f; 本文就是想拆解下其中的结构&#xff0c;看看对于一个3D的UNet&#xff0c;和2D的UNet&#x…

keepalived与nginx与MySQL

keepalived VRRP介绍 集群&#xff08;cluster&#xff09;技术是一种较新的技术&#xff0c;通过集群技术&#xff0c;可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益&#xff0c;其任务调度则是集群系统中的核心技术。 集群组成后&#xff0c;可…