【LLM训练】从零训练一个大模型有哪几个核心步骤?

news/2025/2/25 10:17:36/文章来源:https://www.cnblogs.com/fasterai/p/18565544

【LLM训练】从零训练一个大模型有哪几个核心步骤?

⚠︎ 重要性:★★★


NLP Github 项目:

  • NLP 项目实践:fasterai/nlp-project-practice

    介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验

  • AI 藏经阁:https://gitee.com/fasterai/ai-e-book

    介绍:该仓库主要分享了数百本 AI 领域电子书

  • AI 算法面经:fasterai/nlp-interview-handbook#面经

    介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器

  • NLP 剑指Offer:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题


从零开始训练LLM需要如下4个核心步骤:

LLM的构建主要包含四个阶段:

  • 预训练
  • 有监督微调
  • 奖励建模
  • 强化学习

这四个阶段都需要不同规模数据集合以及不同类型的算法,会产出不同类型的模型,同时所需要的资源也有非常大的差别。

OpenAI 使用的大规模语言模型构建流程:

第 0 步:预训练基础大模型

目的:基于海量数据以“文字接龙”的形式构建基础语言模型。

语言建模和去噪自编码的输入输出对比:

第 1 步:有监督微调(SFT)

目的:人类引导“文字接龙”的方向。利用少量高质量数据集合,包含用户输入的提示词(Prompt)和对应的理想输出结果。

第 2 步:训练奖励模型

目的:为GPT请一个好老师。基于人类反馈训练的奖励模型可以很好的人类的偏好。从理论上来说,可以通过强化学习使用人类标注的反馈数据直接对模型进行微调。构建奖励模型(Reward Model),模拟人类的评估过程可以极大降低人类标注数据的时间和成本。奖励模型决定了智能体如何从与环境的交互中学习并优化策略,以实现预定的任务目标。

第 3 步:根据奖励模型进行强化学习

目的:AI 指导 AI,优化预训练模型。

使用奖励模型强化训练基础模型:


MLP 大模型高频面题汇总

NLP基础篇

  • 【NLP 面试宝典 之 模型分类】 必须要会的高频面题
  • 【NLP 面试宝典 之 神经网络】 必须要会的高频面题
  • 【NLP 面试宝典 之 主动学习】 必须要会的高频面题
  • 【NLP 面试宝典 之 超参数优化】 必须要会的高频面题
  • 【NLP 面试宝典 之 正则化】 必须要会的高频面题
  • 【NLP 面试宝典 之 过拟合】 必须要会的高频面题
  • 【NLP 面试宝典 之 Dropout】 必须要会的高频面题
  • 【NLP 面试宝典 之 EarlyStopping】 必须要会的高频面题
  • 【NLP 面试宝典 之 标签平滑】 必须要会的高频面题
  • 【NLP 面试宝典 之 Warm up 】 必须要会的高频面题
  • 【NLP 面试宝典 之 置信学习】 必须要会的高频面题
  • 【NLP 面试宝典 之 伪标签】 必须要会的高频面题
  • 【NLP 面试宝典 之 类别不均衡问题】 必须要会的高频面题
  • 【NLP 面试宝典 之 交叉验证】 必须要会的高频面题
  • 【NLP 面试宝典 之 词嵌入】 必须要会的高频面题
  • 【NLP 面试宝典 之 One-Hot】 必须要会的高频面题
  • ......

BERT 模型面

  • 【NLP 面试宝典 之 BERT模型】 必须要会的高频面题
  • 【NLP 面试宝典 之 BERT变体】 必须要会的高频面题
  • 【NLP 面试宝典 之 BERT应用】 必须要会的高频面题
  • ......

LLMs 微调面

  • 【NLP 面试宝典 之 LoRA微调】 必须要会的高频面题
  • 【NLP 面试宝典 之 Prompt】 必须要会的高频面题
  • 【NLP 面试宝典 之 提示学习微调】 必须要会的高频面题
  • 【NLP 面试宝典 之 PEFT微调】 必须要会的高频面题
  • 【NLP 面试宝典 之 Chain-of-Thought微调】 必须要会的高频面题
  • ......

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/840307.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Day37--error和exception

Day37--error和exception Exception 异常 Error 错误 目录: 1、什么是异常 2、异常体系结构 3、Java异常处理机制 4、处理异常 5、自定义异常 6、总结 什么是异常 实际工作中,遇到的情况不可能是非常完美的。比如:你写的某个模块,用户输入不一定符合你…

从零开始:NetBox 4.1 Docker 部署和升级

前言 由于Netbox 官方的中文语言日渐完善,所以新出一个使用官方Docker源部署和升级的教程。 Netbox 系列文章:https://songxwn.com/categories/NetBox/环境介绍 Rocky Linux 9.5 (理论上也适用于RHEL系列的7-9版本) 南京大学镜像源ISO镜像下载:https://mirror.nju.edu.cn/…

如何只因算看到篮板需要的视场角

要脸别看这是一篇只因🐭文档,没有任何意义,不要看,但是邹老板让我写我就写了。 视场角是什么 视场角是在光学仪器中,以光学仪器的镜头为顶点,以被测目标的物象可通过镜头的最大范围的两条边缘构成的夹角。视场角的大小决定了光学仪器的视野范围,视场角越大,视野就越大…

编辑器快速打印html模板结构

一般编辑器,新建html文件时,会自带模板结构

dedeCMS 后台账号或密码忘记了怎么办

问题:后台管理员账号或密码忘记。 解决办法:数据库修改:打开数据库中的 dede_admin 表,找到管理员记录,将 pwd 字段的值改成 f297a57a5a743894a0e4,密码将被重置为 admin。重置工具:下载织梦后台管理员密码重置工具,将 resetpwd.php 放在网站根目录。 在浏览器上打开 h…

帝国CMS封面页调用指定栏目缩略图代码

调用栏目ID为2的栏目缩略图:[e:loop={"select classid,classname,classimg,intro from phome_enewsclass where classid=2",1,24,0}] <img src="<?=$bqr[classimg]?>" border="0" width="140" height="140" alt…

[Linux]exec系列函数

exec系列函数exec系列函数是用来进行程序的替换的。替换原理 当使用fork函数创建子进程后,子进程会执行与父进程相同的代码(但也有可能执行不同的代码分支),子进程会通过调用exec函数来执行另一个程序。当调用exec函数时,会用新程序的代码和数据来覆盖当前进程的代码和数据…

使用 JavaScript 的 XMLHttpRequest 或 Fetch API 发送 HTTP 请求时,GET 请求和 POST 请求处理参数的方式不同,这与 HTTP 协议的设计有关

使用 JavaScript 的 XMLHttpRequest 或 Fetch API 发送 HTTP 请求时,GET 请求和 POST 请求处理参数的方式不同,这与 HTTP 协议的设计有关 GET 请求的参数特点:GET 请求的参数通过 URL 传递。 原因: URL 表现方式:GET 请求的主要目的是从服务器获取资源。URL 是资源的唯一标…

IoU已经out了,试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析

这是目标检测领域的首选评估指标。计算两个边界框的IoU时,如果它们有重叠区域,就测量重叠面积,然后除以两个框所覆盖的总面积。你是否曾经训练过一个模型,在评估指标上表现出色,但在实际可视化边界框时,却发现它在许多情况下都失败了?这可能是因为像简单交并比(IoU)这样的标准…

计算机是怎样跑起来的

总结自书籍:https://weread.qq.com/web/reader/b9b324005dd9f0b9b9e6f17k0e6320502c60e65972dc52f#outline?noScroll=10 前提 计算机的三个根本性基础计算机是执行输入、运算、输出的机器计算机的硬件由大量集成电路(IC)组成,每块IC都有许多引脚,用于输入/输出,IC在其内部…

2024-2025-1 20241428张雄一《计算机基础与程序设计》第九周学习总结

学期(如2024-2025-1) 学号20241428 《计算机基础与程序设计》第9周学习总结 作业信息这个作业属于哪个课程 <班级的链接>(如2024-2025-1-计算机基础与程序设计)这个作业的目标 操作系统责任、内存与进程管理、分时系统、CPU调度、文件、文件系统、文件保护、磁盘调度…

【CodeForces训练记录】CodeTON Round 9 (Div. 1 + Div. 2, Rated, Prizes!)

训练情况赛后反思 发现自己越来越能猜结论了,连续两题结论猜对了,一把rating上青了。 A题 构造一个数组使得模数互不相同,考虑构造一个模数为 \([0,1,2,3,4,5]\) 的数列,所以一个全是奇数的数列 \([1,3,5,7,9]\) 符合条件,直接输出 \(1 \sim n\) 的奇数即可。 #include &l…