优雅谈论大模型7:重新审视神经网络

这个专栏围绕着大模型的基本知识点深入浅出,章节之间的联系较为紧密。若在某个环节出现卡点,可以回到如何优雅的谈论大模型重新阅读。而斯坦福2024人工智能报告解读则为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

神经元

在继续往下的旅程之前,神经网络的基本知识十分重要,因为它涉及到后面大模型参数微调内容。于是就先停下来将一些基础知识讲明白。同时审视下神经网络的原理与背后的数学解释。如此可以更加优雅的理解大模型,当然受益的不仅仅是大模型技术,对于其他的深度神经网络也是十分重要。

左图为人类大脑中神经元的结构,神经元是由细胞体、轴突和树突三个主要部分构成的。其他神经元的信号利用树突传递到某个细胞体,细胞体把这些传递过来的信号整合加工,最终通过轴突的突触传递给周边神经元。所以说人类神经元的模型就是将输入进行加工,然后输出给周边的神经元,最后激活人类对应的反应和行为。

但是若任何的输入都会导致输出,人脑估计也是吃不消,而且会出现人的情绪极不稳定。因此每个神经元都会有一种自我保护的机制(有些资料称呼为阈值),若输入的信号太小或者不是神经元的关注点,那么就会忽略这个信号,不会继续往下传递。

于是科学家们对神经元的模型进行了数学抽象,将每个输入x乘以一个权重w,然后累加之后加上或者减去调整项θ输入激活函数去判断是否输出,以及输出的数值y,最后将这个数据传递给下游。

想象一下,人类大脑有近860亿个神经元,每个神经元有多达10000个突触。输入x可以是现实世界的任何感知,权重都是训练得出,就像小孩子或者宠物,都是通过不断地尝试,不断地学习最终让大脑中的神经元各司其职。而神经网络也是如此,通过对于大量样本的学习,让不同位置的神经元负责某个部分的识别,最终达到最优的效果。

每个人的神经元的权重应该是不一样的,这才造就了个体。而每个人的成长和意识都是由不同的大脑结构(神经网路架构),成长背景(训练模式),接触知识(训练语料),教育模式(调优模式)导致。

激活函数

因此到了这里完成了神经元到神经网络(神经单元)的蜕变。输入x1,x2, x3, 计算z=w1x1+w2x2+w3x3+θ,然后将z输入激活函数u中得到最终的输出值。若激活函数式单位阶跃函数的话,那么z要是小于0,一律输出0。

当然在实际运用中下图的σ激活函数(Sigmoid函数)使用最为广泛。因为它有很多优质的品质。比如它的导数等于自身和1减自身的积。在数值上,只需计算该函数在小范围数字上的值,例如[-10,+10]。对于小于-10的值,函数的值几乎为零。对于大于10的值,函数值几乎为1。

除了σ激活函数还有很多其他的函数,后续大家在看大模型架构的时候可以特意的留意下采用了什么激活函数。

神经网络

掌握了上面的基础知识之后,其实每个人都可以随意的构建自己心目中的神经网络,神经网络无非是将一个个的神经元连接起来。下图为一个经典的神经单元组织模式:阶层型的神经网络,层层递进,而这些中间层称之为隐藏层。

下图是一个具体的例子,例子中的神经网路只有一层的隐含层。将3*4的图像重新排序为一维的数组,然后输入,输入层和隐藏层全部连接,然后隐藏层和输出层也是全连接。图标蓝色的部分为被激活的连接,最终输出预测值0。

细心的同学可能会发现,隐藏层中A其实负责监测图像右边的“竖线”,而C负责监测图像左边的“竖线”,当输入满足的时候,“A”和“C”两个神经单元被激活,然后传递到“0”的神经单元,最终“0”的神经单元会被强力激活。

激活函数的输出离不开输入信号和权重,因此需要某种方式去训练神经网络的权重参数,让中间的这些隐藏层节点能够在整个任务中扮演特定的角色。而这些参数其实某种意义上就是对于信息的一种编码,存储在神经网络中。大模型技术某种意义将神经网络发挥到极致,不断地累加层级、参数量级和连接方式。在算力产业突破的情况下,进行大规模的训练,让复杂神经网络的信息编码更加的高效和智能。

各种组织方式的神经网络

权重学习

那么基础部分剩下最后一个问题,如何进行训练和调整参数。训练一开始所有的神经网络权重都是随机初始化。紧接着开始按照批次(本例的批次为64幅图)分别输入网络,输出预测结果。再将实际值和预测值进行“相减”,求出这个批次的所有预测值与实际值的代价函数,最后通过某种算法(梯度下降法或者其他),逐步的完成所有权重的更新操作。

相似度与点积

仔细观察这个公式,w和x,一个是权重参数,一个是输入,这样相乘的背后有什么数学意义没有?有,其实这样的运算就是求w向量(w1,w2,w3)和x向量(x1,x2,x3)的相似度(内积)。所以从某种意义而言,神经单元将输入和权重进行“相似度”的比较在进行决策是否输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/700153.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot房屋租赁系统

摘要 房屋租赁系统;为用户提供了一个房屋租赁系统平台,方便管理员查看及维护,并且可以通过需求进行设备信息内容的编辑及维护等;对于用户而言,可以随时进行查看房屋信息和合同信息,并且可以进行报修、评价…

【C++】学习笔记——继承_2

文章目录 十二、继承5. 继承与友元6. 继承与静态成员7. 复杂的菱形继承及菱形虚拟继承 未完待续 十二、继承 5. 继承与友元 友元关系不能继承,也就是说父类友元不能访问子类私有和保护成员 。除非子类也设置成友元。 6. 继承与静态成员 父类定义了 static 静态成…

干最毒的事,做最靓的仔,贾诩为何会被称为“汉末第一毒士”?

两汉各有一毒士,西汉陈平,东汉贾诩。 啥叫“毒士”呢?就是那种专出那种缺德的招术、招招要人命的参谋、秘书。 这种人,对于他们的老板来说,那是绝对是嘎嘎好使,因为一出手就能起到立竿见影的效果。但是&a…

IC卡16个扇区详解:揭秘智能卡的存储结构

目录标题 IC卡的基本结构扇区的划分扇区的功能扇区的安全性扇区的应用NFC卡和IC卡,从外观怎样区分总结 在智能卡的世界里,IC卡(Integrated Circuit Card)以其安全性和便捷性成为了现代生活中不可或缺的一部分。无论是用于支付、身…

基于正点原子的FreeRTOS学习笔记——任务挂起与恢复

目录 学习目标: 学习笔记: 一、什么是挂起 二、任务挂起 三、任务恢复 四、中断中恢复任务 1、中断任务恢复函数 2、优先级说明 实验代码: 一、任务 二、中断 学习目标: 掌握任务的挂起与恢复 学习笔记: …

手撸XXL-JOB(二)——定时任务管理

在上一节中,我们介绍了SpringBoot中关于定时任务的执行方式,以及ScheduledExecutorService接口提供的定时任务执行方法。假设我们现在要写类似XXL-JOB这样的任务调度平台,那么,对于任务的管理,是尤为重要的。接下来我们…

C++语法|深入理解 new 、delete

在开发过程中,非常重要的语法就有我们new和delete,周所周知在C中最为强大的能力就是对内存的控制,所以我们再怎么强调new和delete都不为过 文章目录 1.new和delete基本语法new和malloc的区别是什么?(1)开辟单个元素的内存差别(2)开…

DGC-GNN 配置运行

算法 DGC-GNN,这是一种全局到局部的图神经网络,用于提高图像中2D关键点与场景的稀疏3D点云的匹配精度。与依赖视觉描述符的方法相比,这种方法具有较低的内存需求,更好的隐私保护,并减少了对昂贵3D模型维护的需求。DGC-…

卡片笔记写作法 精读笔记 01

元数据 卡片笔记写作法:如何实现从阅读到写作 书名: 卡片笔记写作法:如何实现从阅读到写作作者: 申克阿伦斯简介: 卢曼的“盒中笔记”通常很简短,因为这些只是他庞大繁杂研究中的索引,等需要时&…

工作太闲怎么办?有没有什么副业推荐?

如果您的工作太闲,可以考虑参加一些副业,利用您的空余时间进行一些有意义的活动。以下是一些副业建议 1. 在线兼职 可以通过一些在线平台寻找兼职工作,如做在线调查、参与评估、进行数据输入等。 2.做任务 还可以做下百度的致米宝库&#…

2024第16届四川教育后勤装备展6月1日举办 欢迎参观

2024第16届四川教育后勤装备展6月1日举办 欢迎参观 邀请函 主办单位: 中国西部教体融合博览会组委会 承办单位:重庆港华展览有限公司 博览会主题:责任教育 科教兴邦 组委会:交易会159交易会2351交易会9466 展会背景 成都…

009.Rx(Reactive Extenstions)的关系

响应式扩展库在组成响应式系统的应用程序中发挥作用,它与消息驱动的概念相关。Rx不是在应用程序或服务器之间移动消息的机制,而是在消息到达时负责处理消息并将其沿着应用程序内部的执行链传递的机制。需要说明的是,即使您没有开发包含许多组…