串联起深度学习的整体,以及其他领域

1、从模型拟合(收敛)数据关系出发:y=f(x)\Rightarrow y=net(x)

2、f从简单的一层和两层连接开始,发展;f被表示成net

3、如何判断收敛:\sum_{i=1}^{N} (y-\widehat{y})^{2}\rightarrow 0,即目标函数

4、如何界定任务:x\rightarrow yx表示什么?y表示什么?,例如y表示房价、经济增长率、工资收入、地心引力大小、引力波的幅度等等

5、如何定义模型f,也就是如何定义网络net,比如CNN、RNN、Transformer等等

6、如何收集数据:\left \{ \left ( x_{1},y_{1}\right ),(x_{2},y_{2}) ,...\right \},样本数据,例如:人的需求指向

7、如何训练:

      a、计算预测\widehat{y}=net(x)

      b、计算损失loss=\sum_{i=1}^{N} (y-\widehat{y})^{2}

      c、计算梯度\partial_{ (\mathbf{w},b)}\frac{1}{N}\sum_{i=1}^{N}loss(x^{(i)},y^{(i)},w,b)

      d、更新参数(\mathbf{w},b)\rightarrow (\mathbf{w},b)-\eta\cdot \mathbf{g}

8、梯度是什么?不同层的梯度?怎么计算梯度?

      计算梯度:1)链式法则;2)自动微分

9、优化算法是什么?即\eta的设定方式,固定的,还是变化的,怎么变化。有哪些?

10、小批量数据训练,批量指N大小: 

loss=\sum_{i=1}^{N} (y-\widehat{y})^{2}\rightarrow \sum_{i=1}^{N} (y-net(x))^{2} \rightarrow \mathbf{g} \rightarrow \mathbf{w}

11、前向传播:计算net(x)

12、后向传播,计算梯度,更新参数

13、net包括什么?1)、网络架构 2)、参数

14、参数初始化?方法

15、如何添加层?扩大net的规模?\textbf{ResNet},以\textbf{Net}为对象,做\textbf{Res}操作。

16、更新参数w的方式:\mathbf{g} \rightarrow \mathbf{w},梯度

17、模型有哪些?怎么发展的?如何设计

18、生成式人工智能?

19、概率

20、过拟合指什么?loss_{train}>loss_{validation}

21、什么是泛化?y=net(x),实际中(或者条件发生变化的时候) y的结果好使不?

22、怎么判断泛化能力?取决于验证的数据集,看loss_{validation}的大小

23、参数与模型之间的关系?模型 = 网络架构 + 参数

24、什么叫大模型?参数规模超过10,0000,0000,10亿或更大

25、大模型的挑战?收敛并有效,好用

26、现实中训练模型所面临的挑战?梯度消失、梯度爆炸、过拟合、欠拟合、数据分布\left \{ \left ( x,y \right ) \right \}发生变化、计算量大(计算性能不够)

27、数据预处理,raw data: \textbf{x{}'}\rightarrow \textbf{x}

28、结果:想要的,y

29、串联其他领域的知识,例如:信息论领域的,对目标函数或代价函数的设定,数据生成的概率,特定的模式等等,

串联的方式有:y=net(x);挑选net的方式,依据loss=\sum_{i=1}^{N} (y-\widehat{y})^{2},设定预期方向(符合大多数人的预期方式)

30、串联数学,y=f(x),真实的关系ff\rightarrow net, 用\textup{\textbf{}net}表示的\textbf{f}

31、目标在时间的展开,序列数据:\mathbf{x}=\left ( x1,x2,x3,... \right ), 对目标或对象的表示与处理

32、目标在空间的展开,图像数据:

\mathbf{x}=\begin{bmatrix} x11& x12& x13\\ x21&x22 &x23 \\ x31&x32 &x33 \end{bmatrix}

33、\textbf{net}的变化:\textbf{CNN}\textbf{RNN}或其他

34、\textbf{net}的展开:net内部构造,不同的层,块,参数

35、变与不变:

        1)不变\textbf{y}=\textbf{net}(\textbf{x})\textbf{loss}(\textbf{y},\widehat{\textbf{y}}),(注意,\textbf{loss}(\textbf{y},\widehat{\textbf{y}})\textbf{loss}(\textbf{y}-\widehat{\textbf{y}})的区别),

        2)可变\textbf{\textbf{}x},   \textbf{net},  \textbf{y},\textbf{loss}都可变。还有:\textbf{g},\eta,\textbf{w} 等

        3)过程\left ( x,y \right )_{B}\rightarrow net\left ( x \right )\rightarrow \widehat{y}\rightarrow l\rightarrow g\rightarrow w\rightarrow net\rightarrow y\widehat{}

36、\textbf{net}的形式1: 注意力汇聚函数

        注意力机制下的神经网络\textbf{net},注意力汇聚函数模型(网络),

f\left ( x \right )=\sum_{i=1}^{n}\alpha \left ( x,x_{i} \right )y_{i}

       变化形式:\textbf{q},\textbf{k},\textbf{v} 替换 x,x_{i},y_{i}, 分别取名查询query,键key,值value,

f\left ( \textbf{q},(\textbf{k}_{1},\textbf{v}_{1}) ,...(\textbf{k}_{m},\textbf{v}_{m})\right )=\sum_{i=1}^{m}\alpha \left ( \textbf{q},\textbf{k}_{i} \right )\textbf{v}_{i}

37、\textbf{net}的形式2:循环神经网络 RNN

x_{t}\sim P(x_{t}|x_{t-1},...,x_{1})

整个序列的估计值,通过概率形式来获得

P(x_{1},...,x_{T})

上述概率可以写成

P(x_{1},...,x_{T})=\prod_{t=1}^{T}P(x_{t}|x_{t-1},...x_{1})

38、\textbf{net}的形式3:多层感知机MLP

39、\textbf{x}的变形1:序列;\textbf{x}的变形2:图像

40、\textbf{loss}的变化形式

41、\textbf{y}的变化形式

42、\textbf{g}的变化形式

43、\textbf{w}的变化,暂退法和权重衰减,

43、权重衰减是改变\textbf{loss}L+\frac{\lambda }{2}\left \| \textbf{w} \right \|^{2}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/130555.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java 进阶篇】CSS 属性

当你学习CSS时,了解CSS属性是非常重要的,因为这些属性控制了网页上元素的外观和布局。本文将详细介绍一些常见的CSS属性,包括文本属性、盒子模型属性、背景和边框属性、定位属性等。我们还将为每个属性提供示例代码,以便你更好地理…

Xcode 15下,包含个推的项目运行时崩溃的处理办法

升级到Xcode15后,部分包含个推的项目在iOS17以下的系统版本运行时,会出现崩溃,由于崩溃在个推Framework内部,无法定位到具体代码,经过和个推官方沟通,确认问题是项目支持的最低版本问题。 需要将项目的最低…

android app开发环境搭建

Android是流行的移动设备原生应用开发平台,其支持Java语言以及Kotlin语言的开发环境,本文主要描述官方提供的Android studio集成开发环境搭建。 https://developer.android.google.cn/ 如上所示,从官方上下载最新版本的Android studio集成开…

ESP-07S进行TCP 通信测试

一,TCP Server 为 AP 模式,TCP Client 为 Station 模式。 这里电脑pc作为TCP Server,ESP-07S作为TCP Client 。 二,电脑端配置。 1,开启热点。 2,转到“设置”,编辑热点信息。 3,关闭…

华为数通方向HCIP-DataCom H12-831题库(多选题:241-259)

第241题 设备产生的信息可以向多个方向输出信息,为了便于各个方向信息的输出控制,信息中心定义了10条信息通道,使通道之间独立输出,缺省情况下,以下哪些通道对应的输出方向可以接收Trap信息? A、console通道 B、logbuffer通道 C、snmpagent通道 D、trapbuffer通道 答案:…

HiveServer2 Service Crashes(hiveServer2 服务崩溃)

Troubleshooting Hive | 5.9.x | Cloudera Documentation 原因:别人用的都好好的,我的集群为什么会崩溃? 1.hive分区表太多(这里没有说具体数量。) 2.并发连接太多,我记的以前默认是200个连接 3.复杂的hive查询访问表的的分区…

Sentinel入门

文章目录 初始Sentinel雪崩问题服务保护技术对比认识Sentinel微服务整合Sentinel 限流规则快速入门流控模式关联模式链路模式 流控效果warm up排队等待 热点参数限流全局参数限流热点参数限流 隔离和降级FeignClient整合Sentinel线程隔离熔断降级慢调用异常比例、异常数 授权规…

【轻松玩转MacOS】指引篇:这9篇指南助你轻松上手

引言 亲爱的读者,欢迎来到《轻松玩转MacOS》!这里是专为MacOS新手打造的使用教学专栏,无论您是从Windows转投Mac的初学者,还是对MacOS操作略知一二但希望更进一步的朋友,都能在这里找到您需要的答案。 正文 1、基本…

linux centos出现No space left on device解决方案

问题是因为系统磁盘空间不足 解决方法: 找到那个磁盘不足问题 df -lh 发现/dev/mapper/cl-root磁盘已用50G,有如下 解决方案: 1、如果是虚拟机可以通过分配空间使其空间增加 2、将其他不常用磁盘空间分配给cl-root如( /dev/mapper/cl-home &#…

自编码器Auto-Encoder

目录 一. 自编码器二. 香草自编码器(vanilla autoencoder)三. 多层自编码器四. 卷积自编码器五. 稀疏自编码器六. 降噪自编码器 一. 自编码器 Auto-Encoder,中文叫作自编码器,是一种无监督式学习模型。它基于反向传播算法与最优化…

kali linux安装redis

官网:Install Redis from Source | Redis wget https://download.redis.io/redis-stable.tar.gztar -xzvf redis-stable.tar.gz cd redis-stable make显示如下即可进入下一步 sudo make installredis-server 可以看到已经可以使用了。 但是由于第一次使用导致了re…

实施运维01

一.运维实施工程师所具备的知识 1.运维工程师,实施工程师是啥? 运维工程师负责服务的稳定性,确保服务无间断的为客户提供服务. 实施工程师负责工程的实施工作,负责现场培训,一般都要出差,哪里有项目就去…