ChatGPT训练流程

图源:State of GPT - Microsoft Build

在这里插入图片描述
笔者翻译上图如下:
请添加图片描述

阶段子阶段目标备注
Pre-Training--------语言建模
Instruction Finetuning---------让模型能够理解自然语言指令
RLHFReward Modeling奖励建模,用来代替人工打分,降低标注成本奖励模型是用来建模强化学习的一个组件
RLHFReinforcement Learning强化学习建模,通过强化学习的方式训练模型输出奖励最大的文本,即更符合人类偏好的文本

强化学习建模过程如下:

  1. 将指令精调后的大语言模型作为Agent,agent的action即给定输入文本 i i i进入 S t a t e State State S i S_i Si后的文本 O u t p u t i Output_i Outputi
  • 所有可能输入的文本构成了agent的状态空间
  • 所有可能输出的文本构成了agent的动作空间
  1. 奖励模型作为Environment对模型输出进行打分,将分数作为奖励。

注:

  1. 二元分类说法并不准确,原始目标是希望对两个生成的回复进行打分即两者之间按更符合人类预期进行比较,胜出的回复应该得到更多的分数,亦即获得更大的奖励。或者也可以认为是在两者之间做分类,将更符合人类预期的筛选出来,但前者是更加准确的描述。
    在这里插入图片描述
    图源:cs224n-2023-lecture11-prompting-rlhf.pdf

  2. 奖励模型是用来实现强化学习的一个辅助模型,可以理解为强化学习建模中的环境(Environment)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/17842.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

8-1、Deployment运行应用的机制

Kubernetes 通过各种 Controller 来管理 Pod 的生命周期。为了满足不同业务场景,Kubernetes 开发了 Deployment、ReplicaSet、DaemonSet、StatefuleSet、Job 、 CronJob 等多种 Controller。 用户通过 kubectl 创建 Depl…

数据结构【考研笔记】

数据结构【考研笔记】 第一章 绪论一、数据结构的基本概念1、基本概念1)数据2)数据元素、数据项3)数据对象、数据结构4)数据类型、抽象数据类型(ADT) 2、三要素1)逻辑结构2)存储结构…

【react】插件react-tsparticles和tsparticles实现粒子特效:

文章目录 一、效果图:二、实现思路:三、实现代码:【1】安装依赖【2】 一、效果图: 二、实现思路: particles(npm i react-particles-js)目前已被弃用;取代它的是tsparticles(npm i react-tsparticles 和npm install tsparticles&a…

AI大数据智能视频融合平台EasyCVR新增Ehome黑白名单配置

EasyCVR视频融合平台基于云边端智能协同架构,具有强大的数据接入、处理及分发能力,平台支持海量视频汇聚管理,可支持多协议接入,包括市场主流标准协议与厂家私有协议及SDK,如:国标GB28181、RTMP、RTSP/Onvi…

Springboot启用HTTP响应压缩

官方文档:https://docs.spring.io/spring-boot/docs/2.3.12.RELEASE/reference/htmlsingle/#how-to-enable-http-response-compression

【云原生】k8s之存储卷

容器磁盘上的文件的生命周期是短暂的,这就使得在容器中运行重要应用时会出现一些问题。首先,当容器崩溃时,kubelet 会重启它,但是容器中的文件将丢失——容器以干净的状态(镜像最初的状态)重新启动。其次&a…

VMware 17虚拟Ubuntu 22.04设置共享目录

之前使用VM 17之前的版本虚拟CentOS,设置共享目录非常方便,在CentOS中安装VMware Tools即可。随着CentOS变成上游版本后,转向使用Ubuntu,VM也升级到了17,Ubuntu也升级到了最新的22.04,但是发现共享目录不能…

缓存 - Caffeine 不完全指北

文章目录 官网概述设计CodePOMPopulationEviction PolicyRefreshStatistics 官网 https://github.com/ben-manes/caffeine wiki: https://github.com/ben-manes/caffeine/wiki 概述 Caffeine是一个用于Java应用程序的高性能缓存框架。它提供了一个强大且易于使用的缓存库&a…

Dynamsoft Barcode Reader crack

Dynamsoft Barcode Reader crack SDK经过重构,与DynamsoftCaptureVision(DCV)体系结构集成,该体系结构包括: ImageSourceAdapter(ISA)-标准输入接口,用于将来自不同来源的图像数据转换为标准输入图像数据。此外,ISA结合…

css,less,scss中的深度选择器,结合elementUi使用

css中深度选择器用到的是 >>>加类名 可以很方便的找到自己想要修改的样式 lees中用到 /deep/ 加类名 scss中用到::v-deep 加类名

0127 进程与线程1

目录 2.进程与线程 2.1进程与线程 2.1部分习题 2.2处理机调度 2.2部分习题 2.进程与线程 2.1进程与线程 2.1部分习题 1.一个进程的映像是() A.由协处理器执行的一个程序 B.一个独立的程序数据集 C.PCB结构与程序和数据的组合 D.…

Python获取豆丁文档数据内容, 保存word文档

前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 开发环境: python 3.8 pycharm 模块使用: requests --> pip install requests re base64 docx --> pip install python-docx 第三方模块安装方法: win R 输入cmd 输入安装命令 pip install …