GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

文章目录

  • GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF
    • Pretraining 预训练阶段
    • Supervised FineTuning (SFT)监督微调阶段
    • Reward Modeling 奖励评价建模
    • Reinforment Learning RLHF 强化学习

大模型常遇到一些概念性的问题,比如: 什么预训练?什么是pretraining?什么是Base model,什么是SFT model?
CPT和ChatGPT是一样的吗?

以GPT为例,LLM训练流程分为4个阶段:预训练,监督微调训练,奖励评价训练,强化学习。分别生成预训练模型(Base model,基础模型),如GPT3,GPT4;监督精调模型SFT模型,RM奖励评价模型,和最后的生成模型,如ChatGPT。

Andrej Karpathy的这张总结的很好,下面以此作为阐述。
GPT训练流程

Pretraining 预训练阶段

预训练阶段通过互联网的海量数据,训练一个算法基本原型,获得自然语言隐含的大量通用特征。可以理解第一步是粗调,相当于从粗矿中炼矿,从原油中炼油。

训练数据:
来自互联网的大量文本数据,具有低质量,数量巨大特点,TB级别。以LLaMA模型为例,训练数据共1.4T tokens。
数据来源种类也多样化,绝大部分是互联网抓取公开的数据,还有github,wikipedia,arXiv等专业网站数据。
模型类型:
自然语言建模,生成模型,预测下一个token(算法的处理单位,可以是词语,符号,短语,句子等)
训练结果:
base model 基本模型
计算资源:
算力需要很大,1000块以上的GPU;
训练周期:
训练时间耗费几个月,占据训练时间的99%
代表模型:
预训练模型代表,如GPT,LLaMA等等

Supervised FineTuning (SFT)监督微调阶段

预训练的训练数据良莠不齐,直接用到业务场景效果不是很好,接下来需要对模型进行精调。因此训练数据中,问题覆盖应该具有多样性,而且问题可能有很多种回答。也可以用辅助模型的最佳的回应作为引导标注,满足监督训练的条件。

训练数据:
训练数据需要人工标注,人工编写的问题和回答,形成问答对。数据质量高,但数量少。在10~100K量级。
模型类型:
自然语言建模,预测下一个token。基于base model建模的,生成SFT 模型。
训练结果:
SFT model SFT精调模型
计算资源:
算力根据模型和场景,1-100块的GPU资源;
训练周期:
训练以天为单位,几天到几十天。

Reward Modeling 奖励评价建模

在监督微调阶段,获得精调的自然语言模型,一个问题有多种回答,到底哪种最符合呢?这就需要建立明确的价值观体系,好坏之分的标准。在标准尺度的基础上,进一步判别不同回答的优劣,根据训练者的价值,筛选和奖励最好的回答。这个阶段的关键是评价。

增加答案的价值观判断,本质上是选择最佳路径,在多种回答中,按分数排序,选择最好的问题答案。

训练数据:
训练数据需要标注,人工编写的问题和答案,形成具有价值观偏好的问答对,要训练模型哪个是好的,哪个是不好的回答。数量质量高,但数量少。在10-1000K的量级。
模型类型:
二值分类评价模型,区分好和不好的回答。基于SFT模型,生成RM模型。
训练结果:
RM模型,奖励评价模型不能单独部署。
计算资源:
算力根据模型和场景,1-100块的GPU资源;
训练周期:
训练以天为单位,几天到几十天。

Reinforment Learning RLHF 强化学习

在SFT和RM模型基础上,用强化学习模型,根据人工编写问题答案对,和奖励评价模型,对SFT精调模型进行强化训练。多种路径中选择最佳路径,多种答案中,选择最大奖励的答案。

训练数据:
训练数据和前面一样需要标注,通过价值观偏好RM模型获得评分。数量质量高,但数量少。在10-100K量级。
模型类型:
强化学习模型,预训练模型一样结果形式,奖励最大的,生成下一个token。
训练结果:
带价值观判断的生成模型,代表模型:如:ChatGPT,Claude等。
计算资源:
算力根据模型和场景,1-100块的GPU资源。
训练周期:
训练以天为单位,几天到几十天。

点个赞 点个赞 点个赞

觉得有用 收藏 收藏 收藏

End


GPT专栏文章:
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

GPT实战系列-ChatGLM2模型的微调训练参数解读

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案

GPT实战系列-Baichuan2本地化部署实战方案

决策引擎专栏:
Falcon构建轻量级的REST API服务

决策引擎-利用Drools实现简单防火墙策略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/221243.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RT-DETR论文阅读笔记(包括YOLO版本训练和官方版本训练)

论文地址:RT-DETR论文地址 代码地址:RT-DETR官方下载地址 大家如果想看更详细训练、推理、部署、验证等教程可以看我的另一篇博客里面有更详细的介绍 内容回顾:详解RT-DETR网络结构/数据集获取/环境搭建/训练/推理/验证/导出/部署 目录 一…

从0开始学习JavaScript--构建强大的JavaScript图片库

在现代Web开发中,图像是不可或缺的一部分,而构建一个强大的JavaScript图片库能够有效地管理、展示和操作图像,为用户提供更丰富的视觉体验。本文将深入探讨构建JavaScript图片库的实用技巧,并通过丰富的示例代码演示如何实现各种功…

Spring Boot 项目配置文件出现乱码的解决方法

如下图,我们 Spring Boot 项目的配置文件 application.properties 可能会出现如下的乱码问题: 我们写注解的时候是正常的,但是下次启动项目就出现了乱码,这个是字符集设置的问题 解决方法 1.点击 File 选择 Settings 2.搜索 enco…

原神「神铸赋形」活动祈愿现已开启

亲爱的旅行者,「神铸赋形」活动祈愿现已开启,「单手剑静水流涌之辉」「法器碧落之珑」概率UP! 活动期间,旅行者可以在「神铸赋形」活动祈愿中获得更多武器与角色,提升队伍的战斗力! 〓祈愿时间〓 4.2版本更…

【研究中】sql server权限用户设置23.11.26

--更新时间2023.11.26 21:30 负责人:jerrysuse DBAliCMSIF EXISTS (select * from sysobjects where namehkcms_user)--判断是否存在此表DROP TABLE hkcms_user CREATE TABLE hkcms_user (id int primary key identity(1, 1),username char(32) NOT N…

SpringCloud之Gateway(统一网关)

文章目录 前言一、搭建网关服务1、导入依赖2、在application.yml中写配置 二、路由断言工厂Route Predicate Factory三、路由过滤器 GatewayFilter案例1给所有进入userservice的请求添加一个请求头总结 四、全局过滤器 GlobalFilter定义全局过滤器,拦截并判断用户身…

【STL】string类 (下)

目录 1,insert 2,erase 3,find 4,replace 5,rfind 6,substr 7,find_first_of 8,find_first_not_of 9,find_last_of 10,operator 11,ge…

10_7iic整体框架流程

在内核中 这边把iic整个流程分成了 4层 iic_dtiver at24_iic_eeprom 也就是我们的自己的驱动 i2c-core.c 核心层 i2c/busses/i2c-s3c2410.c 控制器层 平台总线驱动层,或者也是图中的设备树 硬件描述 我们假设 板子上有三个iic控制器 0 1 2 这里在控制器0 上挂载了gt24c02的eep…

针对无法创建JDK8版本的SpringBoot项目

自从昨日起,JDK突然改版了,不能在使用JDK8来进行创建Spring Boot项目了,导致目前小编的JDK无从下手~~ 因此,在仔细琢磨了一晚之后,想起来了以下几个方法,与大家共勉。希望能够得到大家的认可! …

远程工具无法连接VMware虚拟机 (Network error: Connection timed out)

windowr输入:services.msc ①检查window相关的Vmmare服务是否开启: 确保上面这个几个启动类型是自动,状态是正在运行。 ②排查虚拟网卡是否禁用: 设置->网络->更改适配器选项: ③检查虚拟网络编辑器以及虚拟机…

2023/11/26总结

一些学习记录: 在对数据库进行一系列操作的时候,遇到一个问题,在插入数据的时候,我数据库对应的是自增id,但是插入后想获取到这个id去使用。我以为是不可以马上获取的,然后看到 项目进度 购物车&#xff…

openGauss学习笔记-132 openGauss 数据库运维-查看openGauss状态

文章目录 openGauss学习笔记-132 openGauss 数据库运维-查看openGauss状态132.1 背景信息132.2 前提条件132.3 操作步骤132.4 参数说明132.5 示例 openGauss学习笔记-132 openGauss 数据库运维-查看openGauss状态 132.1 背景信息 openGauss支持查看整个openGauss的状态&#…