总结:大模型指令对齐训练原理

原文地址:大模型指令对齐训练原理

  • RLHF
    • SFT
    • RM
    • PPO
  • AIHF-based
    • RLAIF
      • 核心在于通过AI 模型监督其他 AI 模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修正,然后根据修正后的反应微调原始模型。在 RL 阶段,从微调模型中采样,使用一个模型来评估生成的样本,并从这个 AI 偏好数据集训练一个偏好模型。然后使用偏好模型作为奖励信号对 RL 进行训练
    • RRHF
      • RRHF(Rank Response from Human Feedback) 不需要强化学习,可以利用不同语言模型生成的回复,包括 ChatGPT、GPT-4 或当前的训练模型。RRHF通过对回复进行评分,并通过排名损失来使回复与人类偏好对齐。RRHF 通过通过排名损失使评分与人类的偏好(或者代理的奖励模型)对齐。RRHF 训练好的模型可以同时作为生成语言模型和奖励模型使用。
  • SFT-only
    • LIMA
      • LIMA(Less Is More for Alignment) 即浅层对齐假说,即一个模型的知识和能力几乎完全是在预训练中学习的,而对齐则是教会它与用户交互时如何选择子分布。如果假说正确,对齐主要有关于学习方式,那么该假说的一个推论是,人们可以用相当少的样本充分调整预训练的语言模型。因此,该工作假设,对齐可以是一个简单的过程,模型学习与用户互动的风格或格式,以揭示在预训练中已经获得的知识和能力。
    • LTD Instruction Tuning
  • Reward-only
    • DPO
      • DPO(Direct Preference Optimization) 提出了一种使用二进制交叉熵目标来精确优化LLM的方法,以替代基于 RLHF 的优化目标,从而大大简化偏好学习 pipeline。也就是说,完全可以直接优化语言模型以实现人类的偏好,而不需要明确的奖励模型或强化学习。
      • DPO 也依赖于理论上的偏好模型(如 Bradley-Terry 模型),以此衡量给定的奖励函数与经验偏好数据的吻合程度。然而,现有的方法使用偏好模型定义偏好损失来训练奖励模型,然后训练优化所学奖励模型的策略,而 DPO 使用变量的变化来直接定义偏好损失作为策略的一个函数。鉴于人类对模型响应的偏好数据集,DPO 因此可以使用一个简单的二进制交叉熵目标来优化策略,而不需要明确地学习奖励函数或在训练期间从策略中采样。
    • RAFT
  • 参考文献
    • 反思RLHF
    • RLHF笔记
    • hf-blog
    • RLHF代码详解
  • self-reward
    • 自我奖励大语言模型是一种新型的智能体,不仅能生成对特定提示的响应,还能生成、评估新的指令执行示例来纳入自己的训练集中。模型的训练采用了一种可迭代的直接偏好优化框架,从一个基础模型开始,创建自我指令,模型为新生成的指令生成候选响应,由同一模型分配奖励。自我奖励模型的关键能力是自我指令创建和自我奖励。自我指令创建包括生成候选响应,以及随后利用模型自身来判断这些响应的质量,模型扮演自己奖励模型的角色,取代了外部奖励模型的需求。这是通过LLM-as-a-Judge机制实现的,即将响应评估表述为指令执行任务。自我奖励的能力指的是模型通过相同的生成机制改善其生成能力,并且作为自己的奖励模型,从而奖励模型可以通过这些迭代得到自身的改进。通过这种自我奖励的训练方式,模型不仅在指令执行能力上得到提升,而且在奖励建模能力上也有所提高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/517970.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[SS]语义分割_U-Net

U-Net网络结构讲解视频 从零开始的U-net入门 U-Net详解 研习U-Net改进 目录 一、介绍 二、详解 1、网络结构 2、网络运行过程 3、实验现状 4、分割策略 一、介绍 U-Net是一种用于生物医学图像分割的卷积神经网络架构。它由Olaf Ronneberger等人在2015年提出&#x…

让 GenAI 提供更好答案的诀窍

在使用GenAI回答有关数据的问题之前,重要的是首先评估所提出的问题。这是Miso.ai的首席执行官兼联合创始人Lucky Gunasekara对当今开发GenAI工具的团队的建议。 GenAI作为一种界面提供了巨大的潜力,使用户能够以独特的方式查询你的数据,以接…

985硕的4家大厂实习与校招经历专题分享(part1)

先简单介绍一下我的个人经历: 985硕士24届毕业生,实验室方向:CV深度学习 就业:工程-java后端 关注大模型相关技术发展 校招offer: 阿里巴巴 字节跳动 等10 研究生期间独立发了一篇二区SCI 实习经历:字节 阿里 京东 B站 (只看大厂…

区块链媒体套餐:精益求精链游媒体宣发推广7个关键细节分享-华媒舍

在如今竞争激烈的游戏行业,一款优秀的游戏缺乏有效的宣发推广,很难脱颖而出。而随着区块链技术的兴起,链游媒体的宣发推广成为游戏开发者和运营商的重要选择之一。本文将为大家介绍精益求精的链游媒体宣发推广的七个关键细节。 1. 定位目标受…

26.基于springboot + vue实现的前后端分离-就业管理系统

项目介绍 系统分为管理员、企业、求职者三个角色 管理员: 登录、个人中心、学生信息管理、企业信息管理、岗位分类管理、学历信息管理、友情链接管理、新闻资讯管理、收藏管理、招聘信息管理、应聘信息管理、求职者信息管理 企业: 注册、登录、个人…

【三】【SQL Server】如何运用SQL Server中查询设计器通关数据库期末查询大题

数据库学生选择1122 数据库展示 course表展示 SC表展示 student表展示 数据库学生选课1122_1 第一题 第二题 第三题 第四题 第五题 数据库学生选课1122_2 第六题 第七题 第八题 第九题 第十题 结尾 最后,感谢您阅读我的文章,希望这些内容能够对您有所启…

CogPMAlignTool模板匹配工具练习——计算硬币金额

计算图片中硬币的金额 在做这个练习之前我们需要认识一个新的工具,CogResultsAnalysisTool是一种用于分析和处理视觉检测结果的工具。该工具通常用于检查和验证视觉系统对图像进行处理和分析后得到的结果,以确保其准确性和可靠性。 1、首先我们要创建三…

Spring之Bean详解

Spring之Bean详解 什么是Bean? 在Spring中,Bean是指由Spring容器管理的对象,这些对象是由Spring IoC容器负责创建、组装和管理的。Bean可以是Java类的实例,也可以是其他Spring管理的组件,例如数据源、事务管理器等。…

算法打卡day8|字符串篇02|Leetcode 28. 找出字符串中第一个匹配项的下标、459. 重复的子字符串

算法题 Leetcode 28. 找出字符串中第一个匹配项的下标 题目链接:28. 找出字符串中第一个匹配项的下标 大佬视频讲解:KMP理论篇 KMP代码篇 个人思路 当看到在一个串中查找是否出现过另一个串,那肯定是用kmp算法了; kmp比较难理解,详细理论和代码可以…

Midjourney入门:AI绘画真的能替代人类的丹青妙笔吗?

名人说:一花独放不是春,百花齐放花满园。——《增广贤文》 作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 一、简要介绍1、Midjourney2、使用方法 二、绘画1、动物类2、风景类3、动漫类4、艺…

【记录处理Vue项目中Video.js播放不了MP4视频Bug】

记录处理Vue项目中Video.js播放不了MP4视频Bug 一、项目场景:二、问题描述三、原因分析:四、解决方案: 一、项目场景: 在Vue项目中使用Video.js播放MP4视频。 二、问题描述 在项目中使用Video.js播放MP4视频。视频采集上来存在数…

以太网帧格式

以太网帧格式 以太网帧格式前导码(Preamble)帧起始界定符(SFD,Start Frame Delimiter)以太网帧头目的MAC地址源MAC地址长度/类型 数据段帧检验序列(FCS,Frame Check Sequence)帧间隙…