Datawhale X 李宏毅苹果书AI夏令营深度学习入门(三)-编程知识

Datawhale X 李宏毅苹果书AI夏令营深度学习入门(三)

news/2025/1/17 18:00:22/文章来源:https://www.cnblogs.com/CuckooAI/p/18393994

一.实践方法论
(一)模型偏差
模型偏差可能会影响模型训练。若模型过于简单，一个有未知参数的函数代θ1 得到一个函数 fθ1(x)，同理可得到另一个函数 fθ2(x)，把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了，没有包含任何一个函数，可以让损失变低的函数不在模型可以描述的范围内。在这种情况下，就算找出了一个 θ∗，虽然它是这些蓝色的函数里面最好的一个，但损失还是不够低。
(二)优化问题
一般只会用到梯度下降进行优化，这种优化的方法很多的问题。比如可能会卡在局部最小值的地方，无法找到一个真的可以让损失很低的参数
(三)判断模型够不够大的方法
通过比较不同的模型来判断模型现在到底够不够大，看到一个从来没有做过的问题，可以先跑一些比较小的、比较浅的网络，或甚至用一些非深度学习的方法，比如线性模型、支持向量机（Support Vector Machine，SVM），SVM 可能是比较容易做优化的，它们比较不会有优化失败的问题。也就是这些模型它会竭尽全力的，在它们的能力范围之内，找出一组最好的参数，它们比较不会有失败的问题。
(四)过拟合
在训练数据上的损失是 0。把训练数据通通丢进这个函数里面，它的输出跟训练集的标签是一模一样的，所以在训练数据上面，这个函数的损失可是 0 呢，可是在测试数据上面，它的损失会变得很大。
解决方案：
(a)增加训练数据集，或者进行数据增强，数据增强就是根据问题的理解创造出新的数据，比如在进行图片识别时，对图像进行翻转裁剪得出的数据增加到训练集
(b)另外一个解法是给模型一些限制，让模型不要有过大的灵活性
最好模型正好跟背后产生数据的过程，过程是一样的就有机会得到好的结果。给模型制造限制可以有如下方法：
给模型比较少的参数。如果是深度学习的话，就给它比较少的神经元的数量，本来每层一千个神经元，改成一百个神经元之类的，或者让模型共用参数，可以让一些参数有一样的数值。全连接网络（fully-connected network）其实是一个比较有灵活性的架构，而卷积神经网络（Convolutional Neural Network，CNN）是一个比较有限制的架构。CNN 是一种比较没有灵活性的模型，其是针对图像的特性来限制模型的灵活性。所以全连接神经网络，可以找出来的函数所形成的集合其实是比较大的，CNN 所找出来的函数，它形成的集合其实是比较小的，其实包含在全连接网络里面的，但是就是因为CNN 给了，比较大的限制，所以 CNN 在图像上，反而会做得比较好
还有别的方法，比如早停（early stopping）、正则化（regularization）和丢弃法（dropoutmethod）。但也不要给太多的限制。
(五)交叉验证
比较合理选择模型的方法是把训练的数据分成两半，一部分称为训练集（training set），一部分是验证集（validation set）。比如 90% 的数据作为训练集，有 10% 的数据作为验证集。在训练集上训练出来的模型会使用验证集来衡量它们的分数，根据验证集上面的分数去挑选结果

(六)不匹配
不匹配是指训练集和测试集的分布不同