统计学习方法
1.3 统计学习方法的三要素
1.3.1 模型
好,为什么要从1.3开始呢,因为看前面的课,我还没有用到这个软件。
方法=模型+策略+算法
模型有好多个,试试
策略:按照什么样的准则去选取模型
比如说看预测值和真实值有多大,或者损失函数最小等
算法 即怎样去实现去寻找这个模型
决策模型
比如房价预测,我输入x,他就会给出一个房价的预测值
条件概率模型
比如我给一张图片,他就会给出属于猫的概率为多少,属于狗的概率为多少
最后呢,我用argmax函数就可以得出属于哪一类了
1.3.2策略
损失函数和风险函数
首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数,有误差平方和,等等
平均损失函数
好的,上面这个不用,因为我们知道分布,还要机器学习干什么。
我们用这个 经验损失
当样本足够大时,这俩就差不多了。第二个就是 损失函数 加起来求平均。L 就是损失函数
在应用中,样本是有限的,所以我们要对平均误差进行矫正。例如正则化什么的,我现在还不会。
经验风险最小化和结构风险最小化
经验风险最小化
当样本数量少,或者易出现过拟合
我们采用结构风险最小化,加一项正则化项
对于概率分布的损失函数有
对于这个可以再去别的地方学学
1.3.3算法
算法就是学习模型的具体计算方法。通过算法可以找到最合适的模型
1.4 模型评估与选择
1.4.1 训练与测试误差
训练误差
测试误差
可以理解为考试,在平常的小测试当中,一直做题,做了很多编后,得分很高,但是到了期末考试就,考的很差了,这就是为什么要用到测试误差。
1.4.2过拟合
过拟合:是指模型过于复杂,对训练集训练的太好,反而应用到测试集,效果不怎么理想