Lion:闭源大语言模型的对抗蒸馏

Lion:闭源大语言模型的对抗蒸馏

Lion,由香港科技大学提出的针对闭源大语言模型的对抗蒸馏框架,成功将 ChatGPT 的知识转移到了参数量 7B的 LLaMA 模型(命名为 Lion),在只有 70k训练数据的情况下,实现了近 95%的 ChatGPT 能力近似。此外,框架的普适性使它不仅可以用于蒸馏 ChatGPT,还可方便地适用于其他闭源 LLMs。

论文题目:

Lion:闭源大语言模型的对抗蒸馏

Lion: Adversarial Distillation of Closed-Source Large Language Model

论文链接:

https://arxiv.org/abs/2305.12870

项目地址:

https://github.com/YJiangcm/Lion

方法概览

具体来说,作者设计 prompt 让闭源 LLM 充当一个“裁判” Referee 来判别出教师的回答和学生的回答存在显著性能差距的难指令。并且,作者设计 prompt 让闭源 LLM 充当一个“生成器” Generator 来生成新的指令,这些生成的指令模拟了对应于被判别出的难指令的数据分布。提出的对抗蒸馏框架如下图所示,每一轮迭代包括三个阶段:

1)模仿阶段,对于一组指令,将学生的响应与老师的响应对齐;

2)区分阶段,识别出难指令;

3)生成阶段,根据识别出的难指令,产生新的难指令以增加对学生模型的挑战。

考虑到学生模型在学习过程中可能会出现灾难性遗忘的问题,作者也生成了同等数量的新的简单指令,来增加训练数据的多样性。具体细节请查阅原论文:

https://arxiv.org/abs/2305.12870

本质上,这个对抗性框架形成了一个正向的反馈循环,有效地提升了学生模型的能力。

image

实****验结果

为了验证方法的有效性,作者将提出的对抗蒸馏框架应用于知名的闭源大语言模型 ChatGPT, 将其知识转移到一个开源的基础预训练模型 LLaMA,该模型由 70 亿参数组成。作者选择了 Alpaca 的训练数据(仅由 175 个手动选择的种子指令生成)作为初始的训练指令,并进行了 3 次 AKD 迭代,总共使用了 70K 的 instruction-following 数据进行训练。最终训练好的模型被命名为 Lion

作者选取了此前的一系列工作包括 LLaMA,Alpaca,Vicuna 和 WizardLM 作为基线。为了公平比较,模型的参数量都定为 7B。按照先前的研究工作,作者使用了两种评估方法:1)使用 GPT-4 自动评估;2)根据“对齐标准”进行人工评估。

**3.1 Automatic Evaluation with GPT-**4

根据先前的研究表明,GPT-4 在比较聊天机器人的回答时具有生成高度一致的排名和全面评估的潜力。这里,作者利用 GPT-4 对两个模型在 80 个 Vicuna-Instructions 上的回答质量进行自动评分(评分从 1 到 10)。作者选取 ChatGPT 的答案作为参照,将 ChatGPT 和其他模型两两进行比较,通过计算得分之和的比率得到不同模型相对 ChatGPT 的整体回答质量。

如下图所示,Lion(7B)相比其他基准模型至少提高了 5.45% 的相对得分,并且接近于 ChatGPT94.74% 的回复质量。

image

为了全面比较 Lion 与其他基准模型在生成高质量回复方面的能力,作者在不同任务类别上绘制了相对回复质量的对比,具体见下图。值得注意的是,Lion 在通用、知识、常识和反事实任务类别中均稍微超过了 ChatGPT。此外,Lion 在数学任务上相比基线模型得分至少高出 26.67%,在代码生成任务上也超过了大部分基准模型。

image

3.2 Human Evaluation with Alignment Criteria

为了评估 LLM 的对齐质量,作者遵循了此前研究采用的 3H 标准:只有具备 helpful、honest 和 harmless(HHH)特征的模型才被认为是对齐的。这些标准被用于衡量人工智能(AI)系统与人类价值观的一致程度。

作者在 252 个 User-Oriented-Instructions 进行了人工评估,并在下图中比较了 Lion 和不同模型之间胜、平、负的频率。人工评估的结果表明,Lion 生成的回答优于除 ChatGPT 之外的其他基准模型。具体来说,与 WizardLM 相比,Lion 在 252 个用户指令中有 81 次取得胜利,而仅在 58 次指令中输掉。这些发现表明,作者提出的框架使得 Lion 在学习各种指令方面非常高效。

image

结论

文章提出了一种创新的对抗知识蒸馏(AKD)框架,用于将闭源的大语言模型(LLM)蒸馏到一个“紧凑”的开源学生模型中。先前的方法集中在单向知识传递上,而作者的方法试图将老师和学生相互的“反馈”融入到学习过程中。作者利用 LLM 的多功能角色适应性,使用不同的 prompt 让闭源模型识别“难”的指令,并为学生模型生成新的“难”指令,从而创建了一个包含模仿、辨别和生成的三阶段对抗循环。

这种方法能够迭代地、高效地提升学生模型的性能。应用该框架,作者将 ChatGPT 蒸馏为一个仅有 70 亿参数的开源学生模型 LLaMA(作者将得到的模型命名为 Lion)。尽管只在 70k 的指示遵循数据上训练,Lion 展现出了接近 95% 的 ChatGPT 能力,在 GPT-4 自动化评估和人工评估中都超过了以往的基线。作者希望 Lion 模型可以作为反映 ChatGPT 性能的基线,以及 NLP 社区中开源指令遵循模型的基线。

局限和讨论

作者在最后指出,Lion 模型仍然存在以下局限:

1)该模型在处理涉及复杂编程或数学计算的任务方面能力有限;

2)训练数据不包括对话,因此 Lion 模型在多轮对话方面的能力较弱;

3)模型的输入序列长度上限为 4096,输出新序列的长度上限为 1024,因此无法实现超长文档处理;

4)模型的安全性,输出内容的毒性、偏好性未经优化。

作者也指出,对于如何衡量大模型的能力,一个统一的、全面的评价指标是必要的。

参考资料:https://it.sohu.com/a/680520547_121119001

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/7818.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

84、基于stm32单片机超市自助存储柜快递箱系统设计(程序+原理图+流程图+参考论文+开题报告+任务书+设计资料+元器件清单等)

单片机主芯片选择方案 方案一:AT89C51是美国ATMEL公司生产的低电压,高性能CMOS型8位单片机,器件采用ATMEL公司的高密度、非易失性存储技术生产,兼容标准MCS-51指令系统,片内置通用8位中央处理器(CPU)和Flash存储单元&a…

select 框添加树结构(todu)

1. 案例: 2. 代码 下班了,明天写

短视频seo矩阵+抖音小程序源码开发解决方案(一)

该解决方案主要针对产品用户交易决策周期长/非标定制等情况的企业,如:房产、汽车、金融、咨询服务,广告设计、网络科技公司,TOB类销售行业等。 基于不同的经营场景,解决方案全面更新,新增账号管理&#xf…

【嵌入式Qt开发入门】如何使用Qt进行文本读写——QFile读写文本

在很多时候我们需要读写文本文件进行读写,比如写个 Mp3 音乐播放器需要读 Mp3 歌词里的文本,比如修改了一个 txt 文件后保存,就需要对这个文件进行读写操作。本文介绍简单的文本文件读写,内容精简,让大家了解文本读写的…

JavaWeb 速通HTML(常用标签汇总及演示)

目录 一、拾枝杂谈 1.网页组成 : 1 结构 2 表现 3 行为 2.HTML入门 : 1 基本介绍 2.基本结构 : 3.HTML标签 : 1 基本说明 2 注意事项 二、常用标签汇总及演示 1.font标签 : 1 定义 2 演示 2.字符实体 : 1 定义 2 演示 3.标题标签 : 1 定义 2 演示 4. 超链接标签 : 1…

2023年07月在线IDE流行度最新排名

点击查看最新在线IDE流行度最新排名(每月更新) 2023年07月在线IDE流行度最新排名 TOP 在线IDE排名是通过分析在线ide名称在谷歌上被搜索的频率而创建的 在线IDE被搜索的次数越多,人们就会认为它越受欢迎。原始数据来自谷歌Trends 如果您相…

【CSS】定位

📝个人主页:爱吃炫迈 💌系列专栏:HTMLCSS 🧑‍💻座右铭:道阻且长,行则将至💗 文章目录 标准流(Normal Flow)元素定位position属性静态定位-static…

Squid代理服务器应用

目录 一、概述 1.代理的工作机制 2.代理服务器的概念 3.作用 4.Squid代理类型 二、安装 Squid 服务 1.编译安装 Squid 2.修改 Squid 的配置文件 3. Squid 的运行控制 4.Squid 服务自动化管理 4.1编写 squid 服务脚本 4.2加入系统服务 三、构建传统代理服务器 1.修…

迈瑞BC系列出图汇总

迈瑞的几个仪器出图需要画图,搞的很费劲,没办法,厂商自己不改,明明有图发Base64串的,就非两个图要自己画,画的方法又描述不清。每个LIS厂商都要浪费很多时间,没什么必要浪费在这种没意义的事情上…

对于大连企业而言如何提升网站的曝光率

对于大连企业而言,提升网站的曝光率是非常重要的,可以通过以下几种方式来实现: 1. 优化网站结构和内容:确保网站的结构清晰,布局合理,并且内容丰富、有吸引力。网站的页面加载速度也要快,以提升…

windows 如何ping ip 加端口号

先在系统中找到 勾选上 和平时的pingip命令不一样了 现在是telnet ip 端口号 先看一组无法ping通端口号的案例 若telnet 127.0.0.1 6379 跳转至一个空白界面 代表ping此ip的端口号成功

JMeter安装RabbitMQ测试插件

目录 前言: 具体实现步骤: 1、ant环境搭建 2、AMQP源码下载 3、拷贝JMeter_core.jar包到JMeter-Rabbit-AMQP插件根目录下 4、修改AMQP插件的配置文件 5、打包 6、RabbitMQ客户端插件下载 7、完成以上,重启JMeter创建线程组就可以看到…