5分钟入门大模型,就5分钟

news/2025/3/14 3:08:41/文章来源:https://www.cnblogs.com/guofu-angela/p/18235991

这个是大模型系列课程的第一节。

接下来我带着大家一起拥抱新技术,分享的进展不会很快,大概一周一次,有空可以直播讲解或实操。


为了照顾那些工程出身,甚至非技术同学,我这个系列会从小白开始,从基础概念入门逐步展开。

我不会研究基础大模型,而是会关注应用层,当然也会涉及预训练、知识库、多智能化跟模型最终效果息息相关的部分。

废话不多说,赶快上车。

我们先理解一下什么是大模型,先从 ChatGPT 来学习大模型。
ChatGPT(Generative Pre-trained Transformer)从名字上已经表明了它的特点,
“Chat” - 聊天,
G:“Generative” - 生成式,
P:“Pre-trained” - 预训练,
T:“Transformer” - 大模型推理架构


Chat-聊天


聊天大家基本都理解,你说一句,它回你一句,所以叫“Chat”-GPT。


Generative-生成式


乍一听啥玩意?
我们跟之前模型的玩法做个对比,就理解了。
比如你在百度/Google 上搜索,它都是把一堆文章和链接返给你,但是GPT 是什么样的,用过的都知道,尤其是网络不好的时候更明显,GPT 就像有口吃,讲话是一个词一个词往外蹦。

为什么呢?
来到了大家最爱的原理剖析了,面试官即视感,来,请讲讲底层原理😄!!

容我先举个🌰,你让 ChatGPT 写一句话描述打工人周一上班的状态。
大模型生成了一句:“周一上班真的很—— 爽(0.2)/ 丧(0.8)
爽和丧都是模型产出的词,每个词都有对应被选中的概率,大模型在选择下一个词的时候就是根据括号里面的概率来定的,那这个词和概率是怎么来的呢?
这个就是根据前期喂给它的语料训练有关系,这个比较深奥,一般二面面试官才问这个,你先记住这个题要考。

这篇文章是第一篇,有些地方不宜讲太深【其实是因为我也还没学到】。
虽然我知道你们对知识如饥似渴,但是这次我们选择浅尝辄止。
image.png

当你给大模型一段输入,接下来大模型会做4 件事:

  1. 将文本编码:模型首先将输入的文本串分词,然后将文字转换为向量(embedding),向量这个词可能有读者会陌生,没关系,你先知道有这个东西,后面会讲的;
  2. 预测下一个词:基于当前用户的输入以及所有前面的上下文,GPT 会计算接下来每一个可能的单词或标记的概率,这个概率表明了在当前上下文中每一个单词接下来出现的可能性,就是上面的爽(0.2)和丧(0.8)。
  3. 选择单词:从概率最高的单词中选择一个作为输出(常规做法);
  4. 重复上述过程:接着,模型会将新生成的单词加入到已有的文本序列中,并基于这个更新后的序列重复上述预测和生成过程,直到达到某个停止条件(如生成特定数量的单词、达到句子结束标记等)。

“生成” 简单来说就是根据给定内容,预测和输出接下来的对应内容。

跟生成式模型相对应的是判别式模型,判别式模型通常用于处理分类任务,也先不纠结这个,先记住这次词,后面我在讲传统机器学习训练,西瓜保不保熟的例子会讲到。

要记的词好多,对吧。
image.png
前面讲了这么多,大白话讲一下重点:
其实大模型的核心机制就是生成一堆候选词,每个候选词都带个概率值,每次选概率高的输出(常规做法),循环往复。

Pre-trained 预训练


再来说预训练,啥又是预训练?
不要虚,看拉哥砍瓜切菜,三二下就给你整明白了。
“预训练”是相对“训练”而言的,所以我们先得知道什么是训练。
训练是机器学习的概念,我以西瓜书里面的经典例子来讲“训练”的概念。

比如我们要训练一个模型,用来根据西瓜的外型判断西瓜是否
这个强子比较有发言权。
image.png

我们来看下训练的过程,比如西瓜熟,一般从色泽、根蒂、敲声三方面来看
在机器学习的概念里面,色泽、根蒂、敲声 这三个叫做特征,是否熟是结果
从数据中学得模型的过程称为“训练”
比如我买10 个瓜,记录每个瓜的色泽、根蒂、敲声,然后把每个瓜都切开,看是不是都熟了。
从特征和结果找规律就是学习或者叫训练的过程,这10个瓜就是我用来学习的“样本”,或者叫“数据集”。
形式化表达 Y = f(x1) + f(x2) + f(x3);
Y 只有二种结果,熟 或者 不熟,训练的参数有三个,样本量有10个,最后能学习到色泽青绿、根蒂蜷缩、敲声浑浊的瓜熟的概率最大,这就是“训练”。
这个例子也是上面说的传统机器学习中的可以用来处理分类任务的判别式模型。

再加个餐,机器学习里面除了分类,还有另外一类任务,叫做回归(regression),分类的模型结果是离散值,比如这里瓜熟不熟,只有二种值,回归任务模型结果是连续值,比如预测瓜的含糖量,一般是一个范围内的连续值。

好了,大家现在应该对训练有了大概的认知,接下来我们来说说预训练。
大模型之所以被称为“预训练”模型,是因为模型在有监督训练和微调之前,先进行了一波大规模的无监督预训练阶段。

很多同学可能之前没学过机器学习,这里有个概念要讲解下:无监督和有监督是什么意思?
比如前面那个瓜熟不熟,是每个瓜都会被切开看,有个明确的结果值:熟还是不熟,这就是有监督。
而无监督学习,代表数据集中没有标签,算法需要从数据本身中发现结构或模式。
还是以瓜为例子,如果是无监督,我学习的目标可能不是区分瓜是不是熟,而是算法自己从这些瓜里面找规律,最后算法发现要把颜色相近、根蒂卷曲程度差不多的瓜放在一起,这个叫聚类,这么说大家明白了吗?

那在ChatGPT 里面也是类似,预训练的时候不涉及带有标签的训练,直接把互联网大量的咨询、文章等丢给模型,让模型学习词汇、语法、语义以及上下文信息。通过这个过程,模型能够学习到丰富的语言知识和表示能力。
在预训练完成后,这些模型可以进一步进行有监督的微调或特定任务的训练。通过微调,模型可以根据特定任务的数据进行具体的训练和调整,使其更适应特定任务,提高性能。
总结起来,预训练模型通过在大规模无监督数据上进行训练,为模型提供了基础的语言理解和表达能力。其后,通过特定任务的微调,将模型应用到具体的任务上,并提升其性能和适应性。这种两阶段训练的方式使得预训练模型相比传统NLP 自然语言处理任务中取得了更显著的突破。

好,能学到这的人我觉得稳了,加餐加餐。

大模型为什么叫大模型,其中一个大的体现就是参数非常大,刚才我们看判断瓜是否熟的模型参数只有三个,一般大模型的参数都是十亿起步,比如GPT3 的参数规模是175B,1B(1 Billion)等于10亿(即(10^9)),所以GPT3 有1750 亿个参数,属于千亿级的参数,GPT4 参数更夸张,是1.8万亿参数,训练一次就得 6300万美元!

其实大模型所用到的技术跟传统NLP 本质上没有区别,但是由于参数量级巨大,带来了一个关键的变化,就是模型具备了“涌现”能力,下面这个图就是一个说明,当模型参数达到一定量级,就好像出现了人工智能,机器有了“自主意识”,能“生成”了。
image.png
我很喜欢“涌现”这个词,这个词就好像武侠小说里的主人公,当内力达到一个临界值之后,全身经脉打通,武力值爆表。
希望我的读者在大模型技术上都能“涌现”,嗯嗯嗯~~~。
这篇文章就到这里,下篇讲大模型核心训练框架-Transformer,也就是ChatGPT 的最后一个单词T。


公众号推送机制变了,大家可以右上角“精选”,不怕错过拉哥的推送,如果看完觉得有收获,别忘了一键三连(点赞、转发、在看),你的支持是拉哥创作最大的动力。
如果大家对大模型感兴趣,可以添加拉哥微信,备注“大模型”,已经添加的发送“大模型”,拉你进大模型-学习机器群,大家共同进步。

参考:
Attention Is All You Need


本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/721105.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(4)跨时钟域设计(多bit+FIFO)

一、引入   以上是多bit指示信号的传输与指示信号不同,多bit数据流具有连续性,即背靠背传输,同时要求信号具有较快的传播速度目前多bit数据流传输有两种,一种是借助SRAM,另一种是借助FIFO 二、FIFO   如果FIFO内数据写满则生成满信号,反压上游结点,上游停止写入新的…

采用Dapr 的IoT 案例

CNCF 发布了一篇Dapr 的IoT 案例:Tempestive uses Dapr and K8s to track IoT messages | CNCF。Tempestive 是一家物联网解决方案提供商,其产品 Nuboj 面临着可扩展性、成本和维护方面的挑战。为了解决这些问题,Tempestive 采用 Dapr 和 Kubernetes 构建了一个新的架构,实…

微前端学习笔记(5):从import-html-entry发微DOM/JS/CSS隔离

import-html-entry 是 qiankun 中一个举足轻重的依赖,用于获取子应用的 HTML 和 JS,同时对 HTML 和 JS 进行了各自的处理,以便于子应用在父应用中加载。import-html-entry主要是实现了以下几个能力拉取 url 对应的 html 并且对 html 进行了一系列的处理拉取上述 html 中所有…

知攻善防应急

知攻善防应急靶场一 小李在值守的过程中,发现有 CPU 占用飙升,出于胆子小,就立刻将服务器关机,并找你帮他分析,这是他的服务器系统,请你找出以下内容,并作为通关条件: 1.攻击者的 shell 密码 rebeyond D盾扫网站,什么也没有,估计是靶机开启安全中心了,杀掉了可疑文件…

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

页面级别的微前端粒度太粗,有时候需要更细粒度的微前端,例如:组件、函数级别的。这种场景,就可以使用远程模块,来实现微模块的效果。ModuleFederation是啥? Module Federation就是一个JavaScript远程模块加载架构,即:Module federation allows a JavaScript applicatio…

微前端学习笔记(1):微前端总体架构概述,从微服务发微

目前较成熟的微前方案有 qiankun、micro-app、EMP 方案,但是它们与MF有着本质的不同,那就是对“微前端”的定义:方案微的定义微前端的从最初的CS架构,如MFC Java Swing 等,到BS架构,JSP PHP,再到前端后端分离,前端从jquery GWT-Ext 到 Handlebars ,再到angularJS/Vu…

WrodPress基础之前期7个必要的基本设置

不管使用宝塔面板搭建WordPress还是1Panel面板的方式,一个新WordPress网站需要做一些基本设置才能正式的去设计页面,填充网站内容。 1. 确保网站勾选“建议搜索引擎不收录” 网站正式上线前,我们需要反复设计页面,打磨文案,填充内容,操作过程中必然会产生一些无用的链接,…

基于FPGA的图像直方图均衡化处理verilog实现,包含tb测试文件和MATLAB辅助验证

1.算法运行效果图预览 FPGA的仿真图如下:将数据导入MATLAB,对比结果如下: 2.算法运行软件版本 MATLAB2022avivado2019.23.部分核心程序`timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2023/01/19 01:47:15 // Design Name: // Module Name: im2b…

令你醍醐灌顶的一句话是什么

令你醍醐灌顶的一句话是什么?职场江湖 ​分享外面看不到的职场经验、人情世故和社会潜规则已关注33 人赞同了该文章1、层次越低的人,反驳欲就越强。2、如果别人说你两句,你就受不了,被两句话干扰得吃不好,睡不好你得有多脆弱,你要明白的,能干扰你的,往往是自己的太在意…

C语言通过socket实现TCP客户端

基于socket,通过C语言实现TCP客户端socket概念 ​ 从wiki上了解,socket这个词追溯到 1971 年 RFC 147 的发布。 ​ 目前我的理解:常用于指操作系统提供的 API,该 API 允许使用 TCP、UDP 进行连接,但不仅限于 TCP、UDP 协议。 实现目的 利用系统提供函数接口,通过C语言实现…

一键云部署:资源编排 ROS 轻松部署 LLM 流程编排服务 Flowise

Flowise是一个开源的低代码工具,供开发者构建定制化的 LLM 流程编排和 AI 代理。资源编排服务(Resource Orchestration Service, ROS)是阿里云提供基于基础设施即代码(Infrastructure as Code, IaC) 理念的自动化部署服务,我们可以通过定义一个 JSON/YAML/Terraform 模板…

CUDA程序优化-1.基础介绍

介绍CUDA的基本概念和架构,帮助读者建立对CUDA的初步认识,包括硬件架构/CUDA基础等内容简介 本合集主要介绍我在开发分布式异构训练框架时的CUDA编程实践和性能优化的相关内容。主要包含以下几个部分:介绍CUDA的基本概念和架构,帮助读者建立对CUDA的初步认识,包括硬件架构/…