1、从模型拟合(收敛)数据关系出发:
2、f从简单的一层和两层连接开始,发展;被表示成
3、如何判断收敛:,即目标函数
4、如何界定任务:,表示什么?表示什么?,例如y表示房价、经济增长率、工资收入、地心引力大小、引力波的幅度等等
5、如何定义模型,也就是如何定义网络,比如CNN、RNN、Transformer等等
6、如何收集数据:,样本数据,例如:人的需求指向
7、如何训练:
a、计算预测,
b、计算损失,
c、计算梯度,
d、更新参数
8、梯度是什么?不同层的梯度?怎么计算梯度?
计算梯度:1)链式法则;2)自动微分
9、优化算法是什么?即的设定方式,固定的,还是变化的,怎么变化。有哪些?
10、小批量数据训练,批量指大小:
11、前向传播:计算
12、后向传播,计算梯度,更新参数
13、包括什么?1)、网络架构 2)、参数
14、参数初始化?方法
15、如何添加层?扩大net的规模?,以为对象,做操作。
16、更新参数的方式:,梯度
17、模型有哪些?怎么发展的?如何设计
18、生成式人工智能?
19、概率
20、过拟合指什么?
21、什么是泛化?,实际中(或者条件发生变化的时候) 的结果好使不?
22、怎么判断泛化能力?取决于验证的数据集,看的大小
23、参数与模型之间的关系?模型 = 网络架构 + 参数
24、什么叫大模型?参数规模超过10,0000,0000,10亿或更大
25、大模型的挑战?收敛并有效,好用
26、现实中训练模型所面临的挑战?梯度消失、梯度爆炸、过拟合、欠拟合、数据分布发生变化、计算量大(计算性能不够)
27、数据预处理,raw data:
28、结果:想要的,
29、串联其他领域的知识,例如:信息论领域的,对目标函数或代价函数的设定,数据生成的概率,特定的模式等等,
串联的方式有:;挑选的方式,依据,设定预期方向(符合大多数人的预期方式)
30、串联数学,,真实的关系,, 用表示的
31、目标在时间的展开,序列数据:, 对目标或对象的表示与处理
32、目标在空间的展开,图像数据:
33、的变化:、或其他
34、的展开:内部构造,不同的层,块,参数
35、变与不变:
1)不变:,,(注意,与的区别),
2)可变:, , ,都可变。还有: 等
3)过程:
36、的形式1: 注意力汇聚函数
注意力机制下的神经网络,注意力汇聚函数模型(网络),
变化形式: 替换 , 分别取名查询query,键key,值value,
37、的形式2:循环神经网络 RNN
整个序列的估计值,通过概率形式来获得
上述概率可以写成
38、的形式3:多层感知机MLP
39、的变形1:序列;的变形2:图像
40、的变化形式
41、的变化形式
42、的变化形式
43、的变化,暂退法和权重衰减,
43、权重衰减是改变,