大模型+强化学习_利用AI反馈扩展强化学习_RLAIF

1
2
3
4
5
6
英文名称: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
中文名称: RLAIF:利用AI反馈扩展强化学习
链接: http://arxiv.org/abs/2309.00267v2
作者: Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash
机构: Google Research
日期: 2023-09-01

1 读后感

研究使用机器反馈的强化学习(RLAIF)来替代人工反馈的强化学习。该研究主要集中在大模型领域,并通过一系列实验证明了 RLAIF 的适用范围,还介绍了一些具体的方法,是一篇偏实用性的论文。

另外,从另一个角度考虑,许多大型模型(如 Claude3)似乎已经与人类判断相当一致。那么,我们是否可以利用这些模型生成标注数据,训练其他模型?这是否也可以视为一种知识蒸馏?

2 摘要

目标:研究目的是探索使用 RLAIF (RL from AI Feedback (RLAIF) 方法替代 RLHF 方法,以提高大型语言模型与人类偏好的一致性

方法:方法包括使用 RLAIF 方法,利用现成的大型语言模型生成偏好,比较不同任务下 RLAIF 与 RLHF 的性能,以及直接提示语言模型得分的实验。

结论:实验结果表明,在摘要、有用对话生成和无害对话生成任务中,RLAIF 与 RLHF 相比表现出相当或更好的性能。

3 引言

大规模使用 RLHF 的一个障碍是它依赖于高质量的人类偏好,而一些高质量的 LLMs 已显示出与人类判断高度一致性。

在这项工作中,我们研究了 RLAIF 和 RLHF(见图 2)对三个文本生成任务的影响:摘要、有用的对话生成和无害的对话生成。实验表明,RLAIF 和 RLHF 比 SFT 基线更受人类青睐。这些结果表明,RLAIF 是 RLHF 的可行替代品,它不依赖于人工注释。

大规模使用 RLHF 的一个障碍是它依赖于高质量的人类偏好,而一些高质量的 LLMs 已显示出与人类判断高度一致性

在这项工作中,我们研究了 RLAIF 和 RLHF(见图 2)对三个文本生成任务的影响:摘要、有用的对话生成和无害的对话生成。实验表明,RLAIF 和 RLHF 比 SFT 基线更受人类青睐。这些结果表明,RLAIF 是 RLHF 的可行替代品,它不依赖于人工注释

文章主要贡献如下:

  • 在进行摘要、生成有帮助的对话和无害的对话的任务上,RLAIF(强化学习的自适应反馈)达到了与 RLHF(强化学习的人类反馈)相当或更优的性能。
  • 证明,即使 LLM(大型语言模型)标签器的大小与策略相同,RLAIF 也能改进 SFT(安全性精细调整)策略。
  • 发现,在强化学习过程中,直接提示 LLM 进行奖励评分可以优于在 LLM 偏好上训练奖励模型的标准设置。
  • 比较了生成 AI 标签的各种技术,并确定了 RLAIF 实践的最佳设置。

4 方法

4.1 用模型生成偏好标签

调用模型时提示由以下 4 部分组在:

  • 前言 - 介绍说明任务
  • Few-show 例子(可选)- 一个输入上下文示例,一对响应,链式思考理由(可选)和一个偏好标签
  • 要标注的样本 - 要标记的输入上下文和一对响应
  • 结束 - 提示 LLM(例如,“首选应为=”)的结束文本

在将文本输入给 LLM(大型语言模型)后,我们提取生成“1”和“2”这两个标记的对数概率,并计算 softmax 以获得一个偏好分布(读者注:这里的问题是只能得到两者谁更好,没有程度)。

具体实现时,还考虑到选项的位置可能引起位置偏差,于是交换了选项的前后顺序,并让模型进行两次预测取平均值;另外,通过两步推理过程引入了链式思考。

4.2 利用 AI 反馈强化学习

4.2.1 蒸馏 RLAIF

在这种方法中,首先使用大型语言模型(LLM)为任务标记偏好。然后,这些标记被用来训练一个奖励模型(RM),并将其生成的奖励分数的 softmax 应用交叉熵损失。这种方法生成了软标签(例如 0.6, 0.4),并将 RM 分数转换为概率分布,这可以被视为一种模型蒸馏的形式。以此作为奖励训练策略模型。

4.2.2 直接 RLAIF

另一种方法是直接使用 LLM 反馈作为 RL 中的奖励信号。这使得可以绕过训练 RM 的中间阶段,RM 是用来近似 LLM 的偏好的。LLM 被提示在 1 到 10 之间评价生成的质量。然后,计算每个分数标记在 1 到 10 之间的可能性,可能性被归一化为概率分布,计算加权分数,然后将分数再次归一化到 -1,1 的范围。(读者注:有效解决上面提到的问题)

4.3 评价

使用三个指标评估我们的结果:对齐度、胜率和无害率。

对齐度衡量 AI 标记偏好与人类偏好的一致性;胜率评估是给定一个输入和两个生成,人类注释者选择他们更喜欢的生成,政策 A 优于政策 B 的实例的百分比被称为“A 对 B 的胜率”。50% 的胜率表明 A 和 B 同样受欢迎;无害率衡量被人类评估者认为无害的响应的百分比。

5 实验

5.1 数据

实验数据包含:

  • Reddit TL;DR:包含 Reddit 帖子及其摘要。
  • OpenAI 的人类偏好,每个示例包括一篇帖子,两个候选摘要,以及一个人类注释者的评级,指示哪个摘要更受欢迎。
  • Anthropic 有用和无害的人类偏好:人类与 AI 助手之间的对话,每次对话都有两种可能的 AI 助手回应 - 根据人类注释者的判断,一种是首选,另一种是非首选。偏好基于哪种回应对有用的任务更具信息量和诚实,以及哪种回应对无害的任务更安全。

在下采样和过滤后,每个任务大约有 3-4k 个示例。AI 标签器对齐度指标是在这些下采样的数据集上计算的。

5.2 标注

使用 PaLM 2(Google 等人,2023)作为 LLM 进行偏好标签。使用的版本进行了指令调优,但之前没有经过 RL 训练。

5.3 训练

所有的 SFT 模型和 RM 都从 PaLM 2 ExtraSmall (XS) 初始化。SFT 模型通过在 Reddit TL;DR 数据集上微调得到,而 RM 在对应的偏好数据集上微调。在 RL 阶段,策略采用修改版的 REINFORCE 进行训练,策略和价值模型从 SFT 模型初始化。对于摘要和其他任务,RL 的初始状态分别来自 Reddit TL;DR 数据集和偏好数据集。

5.4 人工评价

在实验中,评估员会看到输入上下文和不同策略(如 RLAIF、RLHF 和 SFT)生成的多个回应,然后按质量对回应进行排名。

6 结果

6.1 RLAIF vs. RLHF

尝试将人类和人工智能的反馈结合起来,但除了单独使用人类反馈之外,没有看到任何改进。如果使用一些技巧,可以稍微改善。机器有与人工反馈类似的效果,并且更节约成本。此外,可以观察到直接使用 RLAIF 效果更好。

6.2 提示的影响

|400

|400

6.3 模型大小对效果的影响

|400

|400

7 定性观察

RLAIF 在 RLHF 没产生幻觉时可能产生幻觉,而 RLHF 产生的幻觉看起来更合理。另外,RLAIF 有时会产生比 RLHF 更不连贯或不符合语法的摘要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/562766.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

链表合并--给定两个元素有序(从小到大)的链表,要求将两个链表合并成一个有序(从小到大)链表,

输入描述: 第一行输入第一个链表的结点数S1&#xff0c;S1<100。 第二行输入S1个整数&#xff0c;两两之间用空格隔开。 第三行输入第二个链表的结点数S2&#xff0c;S2<100。 第四行输入S2个整数&#xff0c;两两之间用空格隔开。 输出描述: 输出合并之后的链表结果&…

在MongoDB建模1对N关系的基本方法

“我在 SQL 和规范化数据库方面拥有丰富的经验&#xff0c;但我只是 MongoDB 的初学者。如何建立一对 N 关系模型&#xff1f;” 这是我从参加 MongoDB 分享日活动的用户那里得到的最常见问题之一。 我对这个问题没有简短的答案&#xff0c;因为方法不只有一种&#xff0c;还有…

如何使用OpenHarmony实现一个模拟应用首次启动

应用首次启动&#xff08;ArkTS&#xff09; 介绍 本篇Codelab基于自定义弹框、首选项和页面路由实现一个模拟应用首次启动的案例。需要完成以下功能&#xff1a; 实现四个页面&#xff0c;启动页、隐私协议页、广告页、应用首页。页面之间的跳转。实现自定义隐私协议弹窗&a…

是德科技N9020A信号分析仪

181/2461/8938产品概述&#xff1a; N9020A MXA信号分析仪通过增加针对新一代技术的信号分析和频谱分析能力&#xff0c;具备了中档分析仪的更高性能。它突破了以往分析仪的极限&#xff0c;支持业界更快的信号和频谱分析,实现了速度与性能的更佳优化。 速度 测试速度超过其它…

IAB欧洲发布首张泛欧洲数字零售媒体能力矩阵图

2024年1月18日&#xff0c;互动广告署-欧洲办事处&#xff08;IAB Europe)发布了首张泛欧洲数字零售媒体能力矩阵图。为媒体买家提供的新资源概述了在欧洲运营的零售商提供的现场、场外和数字店内零售媒体广告机会。 2024年1月18日&#xff0c;比利时布鲁塞尔&#xff0c;欧洲领…

docker 和K8S知识分享

docker知识&#xff1a; 比如写了个项目&#xff0c;并且在本地调试没有任务问题&#xff0c;这时候你想在另外一台电脑或者服务器运行&#xff0c;那么你需要在另外一台电脑或者服务器配置相同的软件&#xff0c;比如数据库&#xff0c;web服务器&#xff0c;必要的插件和库等…

【SysBench】OLTP 基准测试示例

前言 本文采用 MySQL 沙盒实例作为测试目标&#xff0c;使用 sysbench-1.20 对其做 OLTP 基准测试。 有关 MySQL 沙盒的更多信息&#xff0c;请参阅 玩转 MySQL Shell 沙盒实例&#xff0c;【MySQL Shell】6.8 AdminAPI MySQL 沙盒 。 1、部署一个 MySQL 沙盒实例 使用 mysq…

JVM本地方法

本地方法接口 NAtive Method就是一个java调用非java代码的接口 本地方法栈&#xff08;Native Method Statck&#xff09; Java虚拟机栈用于管理Java方法的调用&#xff0c;而本地方法栈用于管理本地方法的调用。 本地方法栈&#xff0c;也是线程私有的。 允许被实现成固定或…

jmeter超高并发报错解决方法

1、比如jmeter设置并发量为5000&#xff0c;运行后报错socket closed。原因是客户端与服务端做了三次握手之后&#xff0c;后面不需要握手了&#xff0c;但是jmeter没有这个功能&#xff0c;5000个并发每次发接口请求都是独立的&#xff0c;jmeter端口处理不了这么大量的请求&a…

tcp 协议详解

什么是 TCP 协议 TCP全称为 “传输控制协议(Transmission Control Protocol”). 人如其名, 要对数据的传输进行一个详细的控制。TCP 是一个传输层的协议。 如下图&#xff1a; 我们接下来在讲解 TCP/IP 协议栈的下三层时都会先解决这两个问题&#xff1a; 报头与有效载荷如何…

【黄啊码】如何用GPT和向量数据库做问答型AI

知识库服务依赖该数据库&#xff0c;Embedding 形式个性化训练 ChatGPT&#xff0c;必不可少的就是向量数据库 因为 qdrant 向量数据库只支持 Docker 部署&#xff0c;所以需要先安装好 Docker 服务。 命令行安装 拉取镜像 docker pull qdrant/qdrant 运行服务 docker run -…

分布式组件 Nacos

1.在之前的文章写过的就不用重复写。 写一些没有写过的新东西 2.细节 2.1命名空间 &#xff1a; 配置隔离 默认&#xff1a; public &#xff08;默认命名空间&#xff09;:默认新增所有的配置都在public空间下 2.1.1 开发 、测试 、生产&#xff1a;有不同的配置文件 比如…