学习 - 人工智能- 大模型的演变和训练-编程知识

学习 - 人工智能- 大模型的演变和训练

news/2025/1/16 13:24:25/文章来源:https://www.cnblogs.com/skystrive/p/18674076

大模型的演变和训练

大模型训练整体上分为三个阶段：

预训练、 SFT(监督微调)以及RLHF(基于人类反馈的强化学习)

一、预训练

预训练的过程类似从婴儿成长成中学生的阶段，在这个阶段我们会学习各种各样的知识，我们的语言习惯、知识体系等重要部分都会形成；对于大模型来讲，在这个阶段它会学习各种不同种类的语料，学习到语言的统计规律和一般知识。但是大模型在这个阶段只是学会了补全句子，却没有学会怎样去领会人类的意图，假设我们像预训练的模型提问：”艾佛尔铁塔在哪个国家？“，模型可能不会回答”法国“，而是根据它看到过的语料去进行输出：“东方明珠在哪个城市？”这显然不是一个好的答案，这能达到一种“填空”或者“成语接龙”的作用，因此我们需要让它能够去遵循人类的指示进行回答，这个就是阶段二SFT(监督微调)

二、监督微调（SFT)

SFT的过程类似于从中学成长成大学生的阶段，在这个阶段我们会学习到专业知识，比如金融、法律等领域，我们的头脑会更加专注于特定的领域。对于大模型来说，在这个阶段它可以学习各种人类的对话语料，甚至非常专业的垂直领域知识，在监督微调之后（Base Model -> SFT Model），它可以按照人类的意图去回答专业领域的问题。这时候我们再向模型提问“艾佛尔铁塔在哪个国家？”，模型大概率会回答“法国”。而不是去补全后面的句子。这个时候模型已经可以按照人类的意图去完成基本的对话功能了，但是模型的回答很可能并不符合人类的偏好，他可能会输出一些涉政、涉暴或者种族歧视等言论，这时候我们就需要对模型进行阶段三RLHF(基于人类反馈的强化学习)。

三、RLHF

RLHF的过程就类似于从大学生步入到职场阶段，在这个过程中我们会开始工作，但是我们的工作可能会受到领导和客户的表扬或者批评，我们会根据反馈来调整自己的工作方法，争取在职场中获得到更多的正面反馈。对于大模型来说，在这个阶段它会针对同一问题进行多次回答，人类会对这些回答打分，大模型会在此阶段学习到如何输出分数最高的回答，使得回答更符合人类的偏好。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/870090.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

RFID基础——概念与分类

RFID 的全称是射频识别技术（Radio Frequency Identification）。是一项利用射频信号通过空间耦合（交变磁场或电磁场）实现无接触信息传递并通过所传递的信息达到识别目的的技术。这项技术在日常生活中应用广泛，例如我国的第二代身份证、门禁卡、图书标签。 RFID与NFC的区别 …

（未完工）「学习笔记」二维数点问题

0.0 前言看了一个晚上，加上同桌的讲解，大致了解了二维数点问题的基本思路。 0.1 前置知识可持久化线段树树状数组1.0 概述二维数点问题的一般形式是形如“给定平面上 \(n\) 个点，每次询问给定一个矩形，求该位于矩形内的点的个数”一类问题，模板题为 P2163 [SHOI2007] 园…

CentOS扩容boot分区并升级内核

本文作者CVE-柠檬i：https://www.cnblogs.com/CVE-Lemon 前言由于安装k8s需要升级内核，但我自己的的boot分区只有200M大小，无法安装新内核，所以干脆把swap分区分给boot了。在此期间关于grub的操作踩了好多坑，所以特此记录一下正确操作。使用rpm安装新内核，下载链接：htt…

陨石的秘密

题目链接： https://www.acwing.com/problem/content/319/ 题目描述提取题目大意：构造 L1对{}，L2对[]，L3对() 组成的深度为D的括号序列，求方案数。并且中括号里不能有大括号，小括号里不能有中括号和大括号。思路：考虑“第一段”括号序列（它作为一个整体，只能是{} []…

Xorto

给定一个长度为n的整数数组，问有多少对互不重叠的非空区间，使得两个区间内的数的异或和为0。暴力，每次找一个中点，找左右两边异或值一样的区间 #include<bits/stdc++.h> #define int long long #define TEST #define TESTS int _; cin >> _; while(_--) using…

【OAuth2框架】理解和实战 OAuth2 认证授权

你知道互联网大厂最怕的是什么吗？但凡有点这样的风吹草动，我们就要花费大量的时间进行修复和上线。一点都不敢耽误，对于紧急类型的，基本当天发现，当天就要升级上线。那是什么问题呢？🤔 其实最怕的就是各类组件漏洞！有这么一个东西，13scan - 安全漏洞扫描它可以扫描…

2025.1.15——1200Q1. 1200 简单来说就是给定3个数组，每个数组选择一个数，三者下标不同，问三者和的最大值。 Winter holidays are coming up. They are going to last for \(n\) days. During the holidays, Monocarp wants to try all of these activities exactly once wi…

【附源码】JAVA大学生竞赛管理系统源码+SpringBoot+VUE+前后端分离

学弟，学妹好，我是爱学习的学姐，今天带来一款优秀的项目：大学生竞赛管理系统。本文介绍了系统功能与部署安装步骤，如果您有任何问题，也请联系学姐，偶现在是经验丰富的程序员！一. 系统演示系统测试截图系统视频演示https://githubs.xyz/show/343.mp4二. 系统概述【系…

Ubuntu升级Linux内核教程

本文作者CVE-柠檬i:https://www.cnblogs.com/CVE-Lemon 本文使用的方法是dpkg安装，目前版本为5.4.0-204，要升级成5.8.5版本下载下载网站：https://kernel.ubuntu.com/mainline/ 在该网站下载deb包，选择自己想要升级的版本，这里是5.8.5https://kernel.ubuntu.com/mainline/…

psSign、random推导

入口：传递的参数值：sign函数 function() {var _0x36c5d3 = _0x79c1ce;let _0x479298 = arguments[_0x36c5d3(0x5a9, PHXL)] > 0x0 && void 0x0 !== arguments[0x0] ? arguments[0x0] : {};try {var _0x1a6f66;if (!_0x32d6a8[_0x36c5d3(0x4d7, l!Uo)][_0x36c5d3(…

渗透测试中如何反编译JAR

反编译是渗透测试中的重要环节之一。通过反编译，我们可以得到程序的项目结构、相关资源以及配置的数据库等信息。本文以常见SpringBoot项目为例，对其进行反编译。 Spring Boot 是一个基于 Spring 的框架，旨在简化 Spring 应用的配置和开发过程，通过自动配置和约定大于配置…