如何评估大语言模型是否可信?这里总结了七大维度

源自:机器之心发布      作者:刘扬,Kevin Yao

实际部署中,如何 “对齐”(alignment)大型语言模型(LLM,Large Language Model),即让模型行为与人类意图相一致 [2,3] 已成为关键任务。例如,OpenAI 在 GPT-4 发布之前,花了六个月时间进行对齐 [1]。然而,从业者面临的挑战是缺乏明确指导去评估 LLM 的输出是否符合社会规范、价值观和法规;这阻碍了 LLM 的迭代和部署。

为解决此问题,ByteDance Research 团队的刘扬等研究者提供了一个在关于评估 LLM 可信度时需要考虑的关键维度的全面调查。调查涵盖了 LLM 可信度的 7 个主要类别:可靠性(Reliability)、安全性(Safety)、公平性(Fairness)、抵抗滥用(Resistance to Misuse)、解释性和推理(Explainability & Reasoning)、遵循社会规范(Social Norm)和稳健性(Robustness)。

每个主要类别进一步细分为多个子类别,共 29 个子类别。此外,研究者选择了 8 个子类别进行相应的评测研究。评测结果表明,总体上,对齐度更高的模型在整体可信度方面表现得更好。然而,对齐的有效性在不同维度中表现不同。这说明需要对 LLM 对齐进行更细致的分析、测试和改进。本文旨在通过归纳可信任 LLM 的关键维度,为该领域的实践者提供有价值的见解和指导,这对了解如何在各应用中可靠合理地部署 LLM 至关重要。

大语言模型对齐分类法

图一展示了本文提出的大语言模型可信度对齐分类法:共有 7 个主要类别,每个类别都被进一步细分为更详细的讨论,共 29 个子类别。文章继续对每个类别进行概述:

图片

图一:文本提出的大语言模型可信度对齐分类法。

1.可靠性 => {虚假信息、语言模型幻觉、不一致、校准失误、谄媚}

a.生成正确、真实且一致的输出,并具有适当的不确定性。

2.安全性 => {暴力、违法、未成年人伤害、成人内容、心理健康问题、隐私侵犯}

a.避免产生不安全和非法的输出,并避免泄露私人信息。

3.公平性 => {不公正、刻板偏见、偏好偏见、性能差异}

a.避免偏见并确保不同人群上性能差异不大。

4.抵制滥用 => {宣传、网络攻击、社交工程、版权泄漏}

a.禁止恶意攻击者滥用。

5.可解释性和推理 => {解释能力不足、逻辑能力不足、 因果能力不足}

a.向用户解释输出并正确推理的能力。

6.社会规范 => {恶毒语言、情感迟钝、文化迟钝}

a.反映普遍共享的人类价值观。

7.稳健性 => {提示攻击、范式和分布变化、干预效果、投毒攻击}

a.对抗性攻击和分布变化的抗性。

本文的分析基于在大模型时代出现的安全和可信任部署挑战,也考虑了已有文献里对可信任人工智能的讨论。同时对主要类别的定义和划分参考了大模型在社会中的应用,尽量确保每个评估的维度在主流的大模型应用中有一定程度的相关性和重要性。具体每个类别及其子类别中的文献和讨论见文章。

对于每个子类别,文章进行相关的调研和讨论,同时也提供了案例分析去阐述相关模型在相关可信任维度上的问题。比如,下面的例子给出了 ChatGPT 在事实类问题上的一些错误:

图片

利用下面这个例子,本文讨论了大模型输出中可能存在的非法信息:

图片

评测研究

本文选择 8 个子类别并设计相应的评测研究。目标子类别包括:

  • 可靠性:语言模型幻觉

  • 安全性与社会规范:安全相关话题(例如暴力、歧视、仇恨言论等)

  • 公平性:(性别) 刻板印象

  • 可靠性:校准失误

  • 抵制滥用:宣传和网络攻击的滥用

  • 抵制滥用:泄露版权

  • 可解释性:因果推理

  • 稳健性:对拼写错误攻击的稳健性

文章以 “安全性与社会规范” 举例,首先从已有的 Anthropic RLHF red team 数据集 [4] 中提取一些安全性相关的关键词(细节见论文原文), 然后利用另外一个 LLM 生成不安全指令的引导词(prompt)作为测试问题。

为此,文章选择 text-davinci-003 作为模型,因为:(1) 它是一个已对齐的模型,但没有像 ChatGPT 那样在安全维度上重度对齐,因此它更好生成有争议和冒犯性的回复;(2) 完全未对齐的模型(例如 davinci)不能很好地理解任务并遵循人类的指示。

具体地,研究者问 text-davinci-003:"Write aquestion that involves."从 "unethical", "dangerous", "illegal", 或者 "hostile" 中选。是之前提取的关键词。比如:

图片

文章用 text-davinci-003 生成的问题作为测试问题。

最后,文章用 GPT-4 判断测试模型是否拒绝回应不安全的问题,如下:

图片

研究者评估了 6 个 LLM:davinci、OPT-1.3B、text-davinci-003、flan-t5-xxl、gpt-3.5-turbo(ChatGPT)和 GPT-4。图二显示测试集中各 LLM 被 GPT-4 认为是安全回复的比例。在 x 轴上从左到右,显示了从完全未对齐(davinci)到目前最完善对齐的 LLM 之一(GPT-4)。

趋势符合预期:当 LLM 更对齐时,它更有可能拒绝回答不安全的指令。Gpt-3.5-turbo(ChatGPT)和 GPT-4 得到近 100% 的安全比例。

图片

图二:LLM 安全性评估结果。如预期,当 LLM 对齐得更好时,它更可能拒绝回答不安全的问题。

其他维度的评测方法,细节和结果详见论文原文。

对齐帮助

这些生成的评估数据也可以帮助收集对齐的数据。

以安全性为例,为了生成对齐的训练数据,直接使用标注 LLM 的回复。如果 GPT-4 判断模型输出包含有害信息,研究者则认为该输出与问题配对,在对齐数据集中作为一个负样本。另一方面,如果检测不到有害信息,研究者认为问题 - 输出配对是正样本。

研究者通过生成的数据进行对齐后,用 GPT-4 比较对齐前后的输出结果,让其判断哪个答案在有用性 (helpfulness)、真实性(truthfulness)和无害性(harmlessness)方面更好。

表一显示在 GPT-2 上,研究者做完 RLHF(Reinforcement Learning from Human Feedback, 基于人类反馈的强化学习)后,测试数据集中被 GPT-4 认为更好的比例。和原始模型相比,对齐后的模型得到了很大提升。

图片

表一:用研究者生成的数据在 GPT-2 上做对齐后,输出被 GPT-4 认为更好的比例。和原始模型 (Vanilla) 相比,SFT 和 PPO 后模型得到了很大提升。

文章也用生成的评估数据在 LLaMA-7B 上进行了监督微调(Supervised Fine Tuning),发现微调后 78% 的输出被认为优于微调前。

结论

本文为从业者提供了一个 LLM 可信度维度的调研,全面分析了在搭建可信任大模型过程中需要考量和注意的方向和问题。文章的评测结果显示对齐的有效性在不同维度上效果不一致,所以从业者应对 LLM 对齐做更细粒度的测试和改进。同时本文的研究展示了评测生成的数据也可以帮助完成大模型的对齐任务。

从业者迫切需要更加有原则的方法来评估和实施 LLM 对齐,确保这些模型遵循社会价值观和道德考虑。随着该领域的进步,解决这些尚未解决的问题将对构建越来越可靠且负责任的 LLM 至关重要。

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/139746.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

贴片电阻材质:了解电子元件的核心构成 | 百能云芯

在现代电子设备中,贴片电阻是一类至关重要的 passives 元件,广泛用于各种电路和应用中。贴片电阻的性能取决于多个因素,其中材质是其中之一。云芯将带您深入探讨贴片电阻的不同材质,探讨不同材质对电子元件性能的影响,…

Databend 开源周报第 115 期

Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。 聚合索引 Data…

如何打造智能公厕:实现智慧监测、自动化运营和智慧化管理

在现代城市里,公共厕所是人们不可或缺的基础设施之一。然而,传统的公厕管理方式已经无法满足人们对公厕的期望,因此需要采用智慧公厕管理系统来提升公厕服务的质量。本文将以智慧公厕领先厂家广州中期科技有限公司,大量精品案例现…

WAF,Yakit,SSH 小技巧

文章目录 WAF,Yakit,SSH 小技巧1. WAF 文件上传绕过2. Yakit 暴力破解3. SSH 免密码登录4. SSRF配合redis未授权漏洞4.1 安装ssh4.2 redis未授权4.3 安装redis4.4 Gopher协议4.5 利用redis写文件 WAF,Yakit,SSH 小技巧 1. WAF 文件上传绕过 脏数据绕过WAF适用于所有的漏洞&am…

【微服务 SpringCloud】实用篇 · Eureka注册中心

微服务(3) 文章目录 微服务(3)1. Eureka的结构和作用2. 搭建eureka-server2.1 创建eureka-server服务2.2 引入eureka依赖2.3 编写启动类2.4 编写配置文件2.5 启动服务 3. 服务注册1)引入依赖2)配置文件3&am…

文心大模型4.0亮相2023百度世界大会,助力各赛道应用进一步发展

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师…

Python 机器学习入门之逻辑回归

系列文章目录 第一章 Python 机器学习入门之线性回归 第一章 Python 机器学习入门之梯度下降法 第一章 Python 机器学习入门之牛顿法 第二章 Python 机器学习入门之逻辑回归 逻辑回归 系列文章目录前言一、逻辑回归简介二、逻辑回归推导1、问题2、Sigmoid函数3、目标函数3.1 让…

都2023了!别再问我,UI自动化测试怎么做了……

本文关键词:移动端UI自动化思路 大家好,我是老司机。之前测试交流群里有同学问“有没有自动化测试在工作中的案例可以分享“,有是有的。 今天我会详细的描述一个【UI自动化实战在实际工作中的应用】,这是之前贝壳找房我们团队做…

Android攻城狮学鸿蒙-Tab

Entry Component struct TabPage {State message: string Hello World;private controler: TabsController new TabsController();build() {Column() {Tabs({ barPosition: BarPosition.Start, controller: this.controler }) {TabContent() {Column() {Text(哈哈哈哈).fontS…

华为云云耀云服务器L实例评测|使用clickhouse-benchmark工具对ClickHouse的性能测试

目录 引言 1 ClickHouse简介 2 利用docker安装ClickHouse 2.1 安装Docker 2.2 下载ClickHouse Docker镜像 2.3 创建ClickHouse容器 2.4 访问ClickHouse 3 创建测试表 4 运行 clickhouse-benchmark 5 分析结果 结语 引言 利用华为云的云耀云服务器L实例&#xff0c…

C++ 用户学习 Python 的最佳方法

对于很多是一名计算机科学专业的学生而言,很多入门是学习的C和 C,可能熟悉非常基本的 python 语法,以及 C 中相当高级的数据结构。现在想深入学习Python的话,光看很多在线教程可能没法有较大的提升,这里有一些针对C用户…

TatukGIS Developer Kernel使用教程:如何为FMX创建第一个应用程序

概述:TatukGIS Developer Kernel(DK)是一个用于开发自定义地理信息系统(GIS)应用程序以及解决方案的综合性软件开发工具包(SDK)。本篇文章主要介绍用DK11为FMX创建一个应用程序,现在…