RLAIF:一个不依赖人工的RLHF替代方案

31ed3ed554821ef9d3112c5228960aeb.png

深度学习自然语言处理 原创
作者:Winnie

LLM可以标记人类偏好数据,用于强化学习吗?尽管之前有一些类似的研究,但从没有人系统地对比RLHF和RLAIF的性能。今天,我们为大家带来一项Google最新的研究,来看看LLM是否懂得人类的偏好。

Paper: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Link: https://arxiv.org/abs/2309.00267

进NLP群—>加入NLP交流群

b72dba071b4d1fc3ad9f0e9a714956d7.png

基于人类反馈的强化学习(RLHF)通过收集人类反馈,以强化学习方法训练LLM,可以更好地理解人类偏好。然而,这个方法有一个很大的问题:收集高质量的人类反馈非常困难和耗时。

那有没有更好的方法呢?

🌟 RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顾名思义,RLAIF是指使用LLM来代替人类标记偏好,基于这些标记数据训练奖励模型,然后进行RL微调。

下图是一个展示了RLAIF(上)和RLHF(下)的基本流程。7f61705fd62a34821f4a98cde1256d1b.png

如图所示,在RLAIF中,首先使用LLM来评估给定的文本和2个候选回复,然后,这些由LLM生成的偏好数据被用来训练一个奖励模型,这个奖励模型用于强化学习,以便进一步优化LLM。

一个LLM用于评估回复的prompt示例如下图,遵循以下流程:

  • Preamble-描述任务介绍和说明

  • Few-shot exemplars(可选)

  • Sample to annotate

  • 结束字符串d7500eb153968cb4b091c252ac63ae8c.png

在这篇研究中,作者还探索了:

  • 避免位置偏差: 候选回复喂给LLM的顺序可能会偏向它喜欢的候选顺序,尤其是在 LLM 参数较小的情况下。为了减轻位置偏差的影响,作者进行了双重推理和平均处理。b5ce192080845030c7666a9ec9205cb5.png

  • prompt改进: 还尝试了使用思维链(CoT)推理和self-consistency等方法促进LLM的评估。

🎯 实验结果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的过滤过的TL;DR数据集上训练了一个SFT模型作为baseline。

  • 对于RLHF方法,奖励模型在OpenAI的TL;DR人类偏好数据集上进行训练。

  • 对于RLAIF方法,使用PaLM 2 L生成AI标记的偏好

  • 对于强化学习,使用A2C训练策略。策略和价值模型都是从SFT模型初始化的。

实验主要有以下发现:

在性能方面:RLAIF与RLHF有相似的表现。

  • 在人类评估上,与SFT策略相比,RLAIF被偏好71%的时间,而RLHF则被偏好73%的时间。尽管RLHF略微优于RLAIF,但这个差异在统计上并不显著。53f951553c7a4699eecea0f2049fd1ff.png

  • 直接对比胜率:RLAIF与RLHF在被偏好的程度上是平等的,胜率都是50%。

  • 与人工写的摘要比较:RLAIF和RLHF生成的摘要分别在79%和80%的时间内被更偏好,与参考摘要的差异也不具统计意义。

  • 影响因素:RLAIF和RLHF策略倾向于生成比SFT策略更长的摘要,这可能是质量提升的一个因素。

  • 长度调整后表现:即使控制摘要的长度,RLAIF和RLHF都依然在同样的幅度内优于SFT策略。

下图是SFT,RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT产生更高质量的摘要。d0dba67ca3ecf1047f1d3a6a92724dbe.png

对于prompt方式,使用详细的OpenAI preamble和CoT给出了最高的对齐性能。少样本提示并没有提高准确性,甚至可能使它变得更糟。

9501b96c6b59f4ad67ecca602e1cc0f1.png

Self-Consistency with CoT对性能的影响如下,用T=1采样会导致与人类偏好的一致性较低。

1e49d6a3cc6655903f008dc6129a88ea.png

作者还对用于评估的LLM的参数大小进行了探索,发现与人类偏好的一致性随着LLM大小的增加而增加。

9d698ce6913acaab9f11a8e9d27469f4.png

🔮 总结

这项工作似乎暗示RLAIF是一个不依赖于人工标注的、与RLHF可行的替代方案。但是,为了更好地了解这些发现是否能推广到其他NLP任务,还需要在更广泛的任务范围内进行实验。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/103634.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是IIFE(Immediately Invoked Function Expression)?它有什么作用?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐IIFE 的基本语法⭐IIFE 的主要作用⭐如何使用 IIFE 来创建私有变量和模块封装⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅…

兵者多诡(HCTF2016)

环境:https://github.com/MartinxMax/CTFer_Zero_one 题目简介 解题过程 登录首页 提交png图片上传抓包,可以看到是向upload文件提交数据 在fp参数中尝试伪协议读取home.php文件 http://127.0.0.1:88/HCTF2016-LFI/home.php?fpphp://filter/readconvert.base64…

FOXBORO FBM232 P0926GW 自动化控制模块

Foxboro FBM232 P0926GW 是 Foxboro(福克斯博罗)自动化控制系统的一部分,通常用于监测和控制工业过程。以下是关于这种类型的自动化控制模块可能具有的一些常见功能: 数字输入通道: FBM232 P0926GW 控制模块通常具有多…

论文复现--VideoTo3dPoseAndBvh(视频转BVH和3D关键点开源项目)

分类:动作捕捉 github地址:https://github.com/HW140701/VideoTo3dPoseAndBvh 所需环境: Windows10,CUDA11.6,conda 4.13.0; 目录 环境搭建conda list配置内容演示生成文件说明 环境搭建 # 创建环境 conda…

sql:SQL优化知识点记录(十四)

(1)索引失效行锁变表锁 建立2个索引 索引是失效后,系统性能会变查,如果涉及到锁的话,行锁会变表锁 有一个问题,当session1用b字段做查询条件因为是varchar类型,需要加双引号,但是没…

工作新时代,腾讯轻联塑造高效办公未来

腾讯轻联:开启便捷、高效的集成新纪元 ⭐ 写在前面⭐ 使用模板快速起步⭐ 自定义流程初体验⭐ 无与伦比的集成强者⭐ 写在最后 ⭐ 写在前面 在当今竞争激烈的商业环境中,提高企业的办公效率和工作流程自动化变得至关重要。腾讯轻联,作为新一…

将 Python 与 RStudio IDE 配合使用(R与Python系列第一篇)

目录 前言: 1-安装reticulate包 2-安装Python 3-选择Python的默认版本(配置Python环境) 4-使用Python 4.1 运行一个简单的Python脚本 4.2 在RStudio上安装Python模块 4.3 在 R 中调用 Python 模块 4.4 在RStudio上调用Python脚本写的…

C++编译静态成员函数报错: “osgGA::DriveManipulator::setEye”: 非静态成员函数的非法调用

来看代码 .h文件中 static void computePosition(const osg::Vec3d& eye,const osg::Vec3d& lv,const osg::Vec3d& up); void setEye(const osg::Vec3d& eye); void setRotation( const osg::Quat& rotation );osg::Vec3d _eye; osg::Quat _rotation…

浏览器连不上 Flink WebUI 8081 端口

安装 flink-1.17.0 后,start-cluster.sh 启动,发现浏览器连不上 Flink WebUI 的8081端口。 问题排查: command R,输入cmd,检查宿主机能否ping通虚拟机,发现能ping通。 检查是否有flink以外的任务占用8081…

论文阅读《Nougat:Neural Optical Understanding for Academic Documents》

摘要 科学知识主要存储在书籍和科学期刊中,通常以PDF的形式。然而PDF格式会导致语义信息的损失,特别是对于数学表达式。我们提出了Nougat,这是一种视觉transformer模型,它执行OCR任务,用于将科学文档处理成标记语言&a…

Android 10.0 禁用adb shell input输入功能

1.前言 在10.0的产品开发中,在进行一些定制开发中,对于一些adb shell功能需要通过属性来控制禁止使用input 等输入功能,比如adb shell input keyevent 响应输入事件等,所以就需要 熟悉adb shell input的输入事件流程,然后来禁用adb shell input的输入事件功能,接下来分…

基于STM32设计的格力空调遥控器

一、格力空调协议介绍 格力空调的红外控制协议被称为格力红外通讯协议或者格力红外遥控协议。这个协议定义了一系列红外信号,可以用来控制格力空调的各种操作,例如开关、温度控制、模式选择、风速控制等等。 格力空调的红外控制协议是一种自定义协议&a…