论文浅尝 | 大语言模型综述

77976b354363a4d132df06d31f540a63.png

笔记整理:刘康为、方润楠,浙江大学硕士,研究方向为自然语言处理

链接:https://arxiv.org/abs/2303.18223

一、介绍

在当前机遇和挑战的背景下,对大语言模型的研究和开发需要更多的关注。为了让读者对大语言模型有一个基本的了解,本调查从四个主要方面对大语言模型进行了文献回顾。

首先是预训练方面,调查详细探讨了如何进行有效的预训练,以培养出具备强大能力的大型语言模型。其次是适应性调优,这一方面考虑了如何从有效性和安全性的角度对预训练的大语言模型进行优化和调整。第三个方面是利用,研究探讨了如何利用大语言模型解决各种下游任务。最后,是能力评估,调查介绍了如何评估大语言模型的能力以及现有的研究结果。

二、回顾

2.1 背景

大型语言模型(LLMs)通常指的是包含数千亿(或更多)参数的语言模型,这些模型是在海量文本数据上训练出来的,如GPT-3、PaLM、Galactica和LLaMA。

2.2 涌现能力

大语言模型的最显著特征之一是其具备了以往预训练语言模型所不具备的涌现能力。代表性的涌现能力包括上下文学习、指令遵循、逐步推理。这些代表性的涌现能力彰显了大语言模型的独特优势。

2.3 关键技术

大语言模型之所以能够取得成功,有五个主要原因。首先是模型、数据和计算资源的扩展,其次是高效稳定的训练手段,第三是语言模型能力诱导,第四是对齐训练,将大语言模型与人类偏好对齐,最后是工具使用。

三、大语言模型的资源

6353c0e267752e199c59b4e6175df34a.png

3.1 公开检查点和API

考虑到参数规模是使用大型语言模型(LLMs)时需要重要考虑的关键因素,作者将这些公共模型划分为两个规模等级,即百亿个参数或千亿个参数。这种划分有助于用户根据其资源预算确定适合自己的资源配置。此外,在推理阶段,可以直接使用公共API来执行任务,而无需在本地运行模型。

作者简要概述了大型语言模型的公开可用检查点和API。根据模型的预训练语料、任务类型或评估指标,推荐不同能力的模型。此外,作者还统计了近年来大语言模型的各项数据,包括容量评估、预训练数据规模和硬件资源成本等,详见表1。

表1

92950d32d8c850da28fab4c530be91e5.png

3.2 常用语料库

作者简要总结几个广泛使用的用于训练大语言模型的语料库。根据其内容类型,我们将这些语料库分为六组: 书籍、CommonCrawl、Reddit链接、维基百科、代码,以及其他。从图2中我们可以看出,大语言模型不再依赖单一的语料库,而是利用多个数据源进行预训练。因此,现有的研究通常将几个现成的数据集(如C4、OpenWebText和Pile)混合在一起,然后进行进一步的处理以获得预训练语料,如下图所示。

a29476fdc06761228e64ab3e83bb144f.png

3.3 代码库

作者搜集了一些用于训练的代码库,包括常用模型库和并行算法库。

四、预训练

4.1 数据

作者介绍了数据的来源以及处理方法,通用数据可以提高大语言模型的语言建模和概括能力,专用的数据集有助于提高大语言模型在下游任务上的能力。数据处理流程如下图所示:

b9832f27d687fa0872a742390db1ebfc.png

4.2 模型

本文解答了为什么大语言模型往往采用 Decoder-Only 架构的问题。本文从 Transformer 做语言模型的主干架构、具体模块和预训练任务三方面向读者们介绍如今大模型的常用方案,并在最后结合文献讨论大家选用 Decoder-Only 架构的原因。

4.3 训练

本章对 3D 并行、ZeRO 等被集成于 DeepSpeed 等代码库的相关训练技术进行归纳整理,并在最后对如何稳定、高效地预训练一个大语言模型给出建议。

五、适应性调整

5.1 指令调整

格式化实例构造:实例是指令微调中的重要因素,主要由任务描述,样例,输入和输出构成。如何构造格式化的实例对指令微调十分重要。首先可以从已经存在的数据集中来构造实例,通过对数据集进行人为的任务功能描述,来构造实体。第二种方法是格式化人们的具体需求。实例构造中需要注意实例的覆盖范围以及实例的数量和质量。具体实例如下图所示。

bca283efbc9f891ec06a0fb28ca95254.png

指令微调策略要平衡数据集的分布,尽可能涵盖到更多的领域,可以在预训练环节中将实例作为语料一起训练。

指令微调有助于大模型在特定领域的表现的进步,并且研究发现,指令微调获得的能力具有迁移性(英文指令微调后面对部分中文任务的表现也有进步)

5.2 对齐调整

对齐调整的目标是使大模型的输出更符合人类规范,变得更有,更确真,更少的攻击性语言。

对齐调整主要通过RLHF(Reinforcement Learning from Human Feedback)实现,通过收集人们对模型输出的内容的评价,来训练一个Reward model,之后利用这个Reward model以及相关的强化学习算法来对大模型进行调整来达到对齐的目的。

363ff82d6636009e5b081e9639165eff.png

六、模型使用

6.1 上下文学习

4d3a959342aadc96100b954c134553e9.png

上下文提示方式是通过将之前的输入输出作为样例参考,来推得目前的输出。公式如下所示:

ebf33d8fc71bfa564ef12c19c28effbc.png

样例参考的设计方法主要有启发式和基于大模型的方法。样例设计的格式为输入输出对,任务描述以及思维链构成。需要注意的是,样例的顺序对结果也有影响,具有偏向末尾的先向,因此在调整样例次序的时候尽量将与新输入相似的实例安排在末尾。

6.2 思维链提示

思维链设计是一种有效的思考方式,它注重多路线的方法来解决复杂的问题。这种方法可以通过不同的思考方式来探索问题的多个方面,从而更全面地理解问题并找到最佳解决方案。同时,思维链设计也能够通过自监督的方式来判断是否出现自相矛盾的情况并做出调整,从而保证思考的准确性和连贯性。

对于大模型而言,思维链设计在何时产生了效用大模型通常需要在处理复杂任务时进行大量的计算和推理。在这个过程中,思维链设计可以帮助大模型更好地理解问题、生成更准确的答案或预测,并且可以提高其效率和性能。因此,思维链设计在大模型应用中具有很高的实用价值。

为什么大模型能够涌现出思维链的能力?这主要是因为大模型具备强大的自学习和自适应能力。它们可以通过大量的数据和模型训练来自我优化,逐渐形成对于复杂问题的理解和处理能力。同时,大模型也可以通过自我监督和反馈机制来修正自身的错误和偏差,从而不断提高其性能和准确性。这些特点使得大模型具备了涌现出思维链的能力,能够更好地应对复杂任务和挑战。

七、能力评估

7.1 基本能力评估任务

语言建模和条件性文本生成是语言生成中的两个主要任务。语言建模是LLMs最基本的能力,它的目的是预测下一个符号。为了评估模型的性能,常用的数据集包括Penn Treebank、WikiText-103、Pile和LAMBADA等。困惑度指标通常被用来评估模型的性能。条件性文本生成则着重于根据给定的条件生成满足特定任务需求的文本,例如机器翻译、文本总结和问题回答等。为了衡量生成文本的质量,统一的指标和人类的评分通常被用来评估大模型的性能。LLM在这些任务上已经取得了显著的性能,甚至超过了人类的表现。然而,现有的评估基准可能无法适当地评估和反映LLMs的能力,因此需要更多的努力来开发新的指标和评估基准来更好地评估LLMs的性能。

除了以上两种文本生成任务之外,代码生成能力和复杂推理能力也是属于基本能力的评估任务。代码生成能力也是一个对大模型能力的评估方向,可以通过对LLM生成的代码的任务完成度,通过率来进行能力评估,如将Codeforces和ACM中的一些题目作为测试,通过率为评估分数。而复杂推理能力评估包括知识推理的正确性和质量,符号推理的能力评估,以及如数学计算问题的解答和证明题的推理相关的数学推理能力。

7.2 高级能力评估任务

大模型的高级能力评估通常包括人类价值对齐,外部交互能力,工具操作。

人类价值对齐有以下方面:有效性、正确性、安全性、无害性。其中,有效性是指模型是否能够完成预期的任务,正确性是指模型是否能够正确地完成任务,安全性是指模型是否能够保护用户的隐私和数据安全,无害性是指模型是否会生成一些具有攻击性的语言。在外部交互方面,代码提示能力是人工智能模型的一种应用场景,可以帮助程序员更快地编写代码。在工具操作方面,搜索引擎和编译器都是程序员常用的工具,可以帮助程序员更快地查找信息和编写代码,大模型可以结合搜索引擎和编译器进行应用,也是对其能力评估的一种方式。

八、总结与展望

尽管大模型在语言生成任务上的表现令人惊奇,但是它们还需要更多的可解释性,这可能需要跨学科的知识来实现。在模型架构方面,我们需要更加有效的Transformer结构,并寻找方法来解决灾难性遗忘和微调对模型综合能力的下降问题。此外,在模型训练方面,我们需要更加系统化和经济的方法,并提供更多的开源检查点以便更多的研究者能够复现和扩展现有工作。同时,我们也需要解决大模型在复杂逻辑推理和安全性方面的问题。为此,我们可能需要跨学科合作来探求模型的可解释性,并且未来朝着开发更加高效、可解释和安全的大型语言模型的方向努力。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

5ae3b6208cd755d636565abdb7543b1a.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/9814.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零开始:如何用Python建立你的第一个人工智能模型

1. 摘要: 在这篇文章中,我们将介绍如何从零开始使用Python建立你的第一个人工智能模型。无论你是刚接触编程的新手,还是有经验的开发者想进一步探索人工智能领域,这篇文章都将为你提供清晰、详细的指南。我们将一步步探索数据预处…

matlab画拟合直方图的脚本

都是一些简单的作图参数,可以自己按照matlab官方的指导去改style https://ww2.mathworks.cn/help/stats/histfit.html %-----------------------------------------------------------------------------------------------------------% %-----Function: Plot a h…

解决阿里qiankun微应用资源无法加载

公司老项目多了,却想用新版本的框架,最好的解决办法就是用微前端。 本文说下我们在用阿里微前端框架qiankun,遇到的一些问题,以及一些巧妙的解决办法。 背景 因为接入微前端很长时间了,导致现在的微应用变成了实际意…

ikbc键盘2.4G接收器丢失,重新对码

我的键盘:ikbc W200 1.键盘关掉重开; 2.新接收器插在电脑上; 3.电脑上打开软件,点开始对码,一会就连接上了。 对码软件放在这里: 我用夸克网盘分享了「IKBC 对码.rar」,点击链接即可保存。打开…

进程(process)、线程(thread)、协程 (Coroutine) 的区别

说到协程(Coroutine),我们必须提到两个名称相似的东西。 在操作系统(os)级别,有进程(process)和线程(thread)两个(仅从我们常见的讲)实际的“东西”&#xff…

redis面试题

面试题汇总 Redis的使用场景什么是缓存穿透,有什么解决方案?能否介绍一下布隆过滤器布隆过滤器? 什么是缓存击穿 ? 怎么解决 ?什么是缓存雪崩 ? 怎么解决 ?redis做为缓存,mysql的数据如何与redis进行同步呢?&#…

【C++】C++11的新特性

文章目录 1. C11简介2. 统一的列表初始化2.1 {}统一初始化2.2 std::initializer_list 3. 声明的新方式和范围for循环3.1 decltype3.2 auto&nullptr&范围for循环 4. STL的变化4.1 新容器4.2 新接口 1. C11简介 ​ 在2003年C标准委员会曾经提交了一份技术勘误表(简称TC1…

MySQL中这些关键字的用法,佬们get到了嘛

前言: 最近粉丝问了一个问题,是关于Limit分页的用法,他没有理解清楚,因此本篇文章主要讲解MySQL的关键字的知识。该专栏比较适合刚入坑Java的小白以及准备秋招的大佬阅读。 如果文章有什么需要改进的地方欢迎大佬提出&#xff0c…

【Unity】HyBridCLR初探

完成目标: 创建热更新程序集加载热更新程序集,并执行其中热更新代码,打印 Hello, HybridCLR修改热更新代码,打印 Hello, World准备环境​ 安装Unity HybridCLR也支持2019.4.x,但新手请先按照下面要求跑通流程后,再根据安装HybridCLR文档尝试2019.4.x。 安装 2020.3.26+…

基本介绍实施工程师,以及实施工程师在软件开发的作用

一.软件实施介绍 1.什么是软件实施? 软件实施是指将软件开发完成后,按照计划进行部署和安装,使软件能够在目标环境中正常运行的过程。下面是软件实施的一般步骤: 1. 规划和准备:确定实施的范围、目标和计划&#xff0…

Oracle中的连接方式

Oracle中的连接方式 对于数据库中表与表之间的连接(内连接、外连接)都可以看成集合之间的运算操作。 内连接 select * from a_table a inner join b_table b on a.id b.id; 相当于求两个集合中满足条件的结果,即交集。 外连接 左/外连接&a…

清华青年AI自强作业hw5:基于CNN实现CIFAR10分类任务

清华青年AI自强作业hw5:基于CNN实现CIFAR10分类任务 简述作业实现遇到的问题相关链接 一起学AI系列博客:目录索引 简述 hw5作业为利用深度卷积神经网络实现CIFAR_10数据集十分类问题,帮助理解CNN的前向传播结构。 CIFAR-10是一个常用的彩色图…