刘知远LLM——神经网络基础

在这里插入图片描述

文章目录

  • 神经网络基础
    • 基本构成
    • 如何训练?
  • Word2Vec例子
    • 负采样:
  • 循环神经网络 RNN
  • 门控计算单元 GRU
  • 长短时记忆网络 LSTM
    • 遗忘门
    • 输入门
    • 输出门
    • 双向RNN
    • 卷积神经网络 CNN
    • pytorch实战

神经网络基础

基本构成

全称:人工神经网络。启发于生物神经细胞
单个神经元
在这里插入图片描述
单层神经网络
在这里插入图片描述
前向计算
在这里插入图片描述
激活函数的作用:没有激活函数的话,多层神经网络就会退化为单层
在这里插入图片描述
输出层
线性输出:回归问题
sigmoid:二分类
softmax:多分类
在这里插入图片描述
在这里插入图片描述

如何训练?

  • 训练目标:
    对回归问题:计算最小均方差
    在这里插入图片描述
    对分类问题:计算交叉熵
    在这里插入图片描述
  • 最小化损失函数:梯度下降法
    在这里插入图片描述
    求导梯度从而进行梯度下降
    在这里插入图片描述
    求微分的链式法则
    在这里插入图片描述
    计算图
    前向
    反向

Word2Vec例子

  • word2Vec可以学到词与词之间的关系
    例如:king-Queen 与 man-woman 近似于平行,这两对词的差异也类似
    在这里插入图片描述
  • 实现:两类模型
    在这里插入图片描述

滑动窗口构造训练数据:目标词target ;其他词context
CBOW根据context预测target,skip-Gram相反
在这里插入图片描述
输出词表的概率分布,最大的概率应该对应target
在这里插入图片描述
skip-Gram:预测context
在这里插入图片描述

  • 问题:词表非常大,计算量大。
  • 解决方法:负采样、分层softmax

负采样:

只采样一小部分作为负例子,词频越高采样概率越大。3/4可以保证低频词也有一定的采样概率
在这里插入图片描述
只采样四个词,其他词不参与计算
在这里插入图片描述

循环神经网络 RNN

处理序列数据时会进行顺序记忆

  • 网络结构
    -
    注意 h i h_i hi会有 h i − 1 h_{i-1} hi1部分的输入

在这里插入图片描述
在这里插入图片描述
选取概率最大的词作为下一个词
在这里插入图片描述
应用场景:序列标注、序列预测、图片描述、文本分类
优点:处理变长数据、模型大小不会随输入增大而增大、参数共享、利用历史信息
缺点:顺序计算时间慢、后面的单元很难获得较早、时间的信息、太多链式的梯度计算–梯度爆炸/消失

变体:GRU/LTSM
核心:计算时保留周围的记忆单元进行数据处理,以捕捉到长距离的依赖性

门控计算单元 GRU

门控机制:对当前信息进行筛选,决定哪些信息会传到下一层。
更新门:当前信息 x i x_i xi和过去隐藏状态 h i − 1 h_{i-1} hi1的比重问题
重置门:上一层的隐藏状态对当前状态的激活
在这里插入图片描述
重置门接近零时, h i h_i hi就和 h i − 1 h_{i-1} hi1没什么关系了

在这里插入图片描述
更新门 z i z_i zi接近零时, h i h_i hi直接由当前输入得到
在这里插入图片描述

长短时记忆网络 LSTM

网络结构
在这里插入图片描述
关键改变:增加cell state 学习长期的依赖关系
通过门控添加cell的信息
在这里插入图片描述

遗忘门

来决定上一个状态有哪些信息可以从cell中移除

在这里插入图片描述

输入门

决定当前信息有哪些可以存到cell中
在这里插入图片描述
在这里插入图片描述

输出门

在这里插入图片描述
总结:做堆叠或者网络很深时,性能很好。缓解梯度的问题

双向RNN

不仅仅取决于过去,还会取决于未来的数据
在这里插入图片描述
总结RNN类算法:顺序记忆,但存在梯度问题

卷积神经网络 CNN

图像领域,考虑结构特殊性,也可以用于NLP,如情感分类和关系分类
在这里插入图片描述
网络结构:
在这里插入图片描述
输入层:
在这里插入图片描述
滑动卷积核
在这里插入图片描述
CNN擅长提取局部特征;RNN适用于变长文本
在这里插入图片描述

pytorch实战

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/470800.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

问题:总离差平方和为变形观测值与变形观测值的平均值之差的平方和。() #微信#其他

问题:总离差平方和为变形观测值与变形观测值的平均值之差的平方和。() 是 否 参考答案如图所示

大学生答案在哪搜? #其他#媒体#媒体

它里面有拍照搜题、文字搜题、语音搜题等多种搜题模式,大家可以根据自己的需求选择相应的搜题模式,很是方便; 1.一键抠图 一款专业的图片编辑处理APP 基本上能满足日常的需求了,不仅支持人像和物品抠图,还有照片修复…

openGauss学习笔记-221 openGauss性能调优-确定性能调优范围-分析作业是否被阻塞

文章目录 openGauss学习笔记-221 openGauss性能调优-确定性能调优范围-分析作业是否被阻塞221.1 操作步骤 openGauss学习笔记-221 openGauss性能调优-确定性能调优范围-分析作业是否被阻塞 数据库系统运行时,在某些业务场景下查询语句会被阻塞,导致语句…

《汇编语言》- 读书笔记 - 第9章 - 转移指令的原理

《汇编语言》- 读书笔记 - 第9章 - 转移指令的原理 总结9.1 操作符 offset问题 9.1 9.2 jmp 指令9.3 依据位移进行转移的 jmp 指令jmp short 标号程序 9.1程序 9.2图 9.2 程序 9.2 的机器码 jmp near ptr 标号 9.4 转移的目的地址在指令中的 jmp 指令如何选择 jmp short、jmp n…

Linux platform tree下的单总线驱动程序设计(DHT11)

目录 概述 1 认识DHT11 1.1 DHT11特性 1.2 DHT11数据格式 1.3 DHT11与MCU通信 1.4 DHT11信号解析 1.4.1 起始信号 1.4.2 解析信号0 1.4.3 解析信号1 2 驱动开发 2.1 硬件接口 2.2 更新设备树 2.2.1 添加驱动节点 2.2.2 编译.dts 2.2.3 更新板卡中的.dtb 2.3 驱…

问题:内存时序参数 CASLatency 是() #学习方法#微信#微信

问题:内存时序参数 CASLatency 是() A.行地址控制器延迟时间 B.列地址至行地址延迟时间 C.列地址控制器预充电时间 D.列动态时间 参考答案如图所示

84 CTF夺旗-PHP弱类型异或取反序列化RCE

目录 案例1:PHP-相关总结知识点-后期复现案例2:PHP-弱类型对比绕过测试-常考点案例3:PHP-正则preg_match绕过-常考点案例4:PHP-命令执行RCE变异绕过-常考点案例5:PHP-反序列化考题分析构造复现-常考点涉及资源&#xf…

倒模UV树脂胶制作舞台监听耳返入耳式耳机壳可行吗?

使用倒模UV树脂胶制作舞台监听耳返入耳式耳机壳是一种可行的方法,能够为专业或业余的音乐制作人、DJ和舞台表演者提供定制的、高品质的监听耳返体验。 以下是一些关键步骤和注意事项: 耳模制作:首先,为使用者制作一个精确的耳模…

操作 Docker 存储卷的常用指令汇总

1. 什么是存储卷? 存储卷就是将宿主机的本地文件系统中存在的某个目录直接与容器内部的文件系统上的某一目录建立绑定关系。使得可以在宿主机和容器内共享数据库内容,让容器直接访问宿主机中的内容,也可以宿主机向容器写入内容,容…

TMGM官网平台开户运作流程如下:

TMGM官网平台开户运作流程如下: 首先,投资者需要注册并登录TMGM官网平台。在平台上,投资者可以选择适合自己的交易账户类型,包括标准账户、高级账户等。 然后,投资者需要进行身份验证和资金入账操作。TMGM会要求投资…

问题:从完整的问题解决过程来看,( )是首要环节。A.理解问题 B.提出假设C.发现问题 D.检验假设 #学习方法#学习方法

问题:从完整的问题解决过程来看,( )是首要环节。A.理解问题 B.提出假设C.发现问题 D.检验假设 A.理解问题 B.提出假设 C.发现问题 参考答案如图所示

leetcode刷题之或操作使用场景

文章目录 概要题目问题分析小结 概要 今天晚上上床前刷了一个leetcode的题目,是leetcode的2103题,因为是个简单题,我只是想复习一下hash表的用法。结果反而让我看到了或操作的使用场景。 题目 总计有 n 个环,环的颜色可以是红、…