〇、回归模型举例
(1)第一种情况
你选择了一个简单的模型,比如一个直线,却想拟合类似抛物线分布的数据。
(2)第二种情况
你选择了一个复杂的模型,比如一个四次多项式,想拟合类似抛物线的数量少的样本。
一、高偏差和高方差的定义
(1)高偏差(High Bias)
偏差(bias)描述的是模型预测值与真实值之间的期望误差,高偏差就是指模型在训练集和验证集上的表现很差。
(2)高方差(High Variance)
方差(variance)是随机变量离其期望值的偏离程度的度量,高方差指的是模型对训练数据中的噪声或者随机性过度敏感,导致模型在训练集上表现很好,但在验证集上表现很差。
二、高偏差、高方差和欠拟合、过拟合什么关系?
高偏差通常和欠拟合相关,高方差通常和过拟合相关,我的理解是这两个表述几乎等价。
- 高偏差/欠拟合:模型过于简单,对训练集的学习不足。
- 高方差/过拟合:模型过于复杂,对训练集的学习过度,对验证集的适应性差。
三、用人类表现作为模型评估的参考标准
在某些特定的机器学习任务中,人类的表现水平确实可以作为一个基准或者参考标准。例如:
- 图像识别:对于一些视觉识别任务,如MNIST手写数字识别,模型的准确率可以与人类识别准确率进行比较,当模型性能接近或超过人类识别精度时,我们可以认为这是一个优秀的模型。
- 自然语言处理:在阅读理解、机器翻译等领域,BLEU分数等评价指标虽然不直接反映模型是否达到人类水平,但可以通过人工评估和模型预测结果对比,看模型是否能接近或达到专业人员的理解和表达能力。
四、如何知道当前的模型存在高偏差问题还是高方差问题?
(1)模型在训练集和验证集的表现对比
- 模型在训练集上的性能与以人类为标准的参考性能之间的差距,用来判断模型是否存在高偏差问题。
- 模型在验证集上的性能与训练集上的性能之间的差距,用来判断模型是否存在高方差问题。
(2)学习曲线分析
学习曲线是一种很好的工具,可以帮助我们诊断模型的偏差和方差问题。学习曲线是训练误差和验证误差随着训练数据量的增加而变化的曲线。
- 如果模型存在高偏差问题,那么随着训练数据量的增加,训练误差和验证误差都会收敛到一个相对较高的水平,并且它们之间的差距不会太大。
- 如果模型存在高方差问题,那么随着训练数据量的增加,训练误差和验证误差之间的差距会逐渐变大。
五、高偏差和高方差评估机器学习模型起何作用?
(1)高偏差和高方差对于模型评估的意义
在评估和优化机器学习模型时,识别并解决高偏差和高方差问题是非常重要的,他们能够揭示模型当前出了什么问题,还能够对症下药,帮助人们去改进模型,提升模型性能。
(2)降低偏差和方差的策略
我用一个表格将6中策略和他们对应解决的问题展示出来。
策略 | 解决问题类型 |
增加样本数量 | 解决高方差 |
减少特征量 | 解决高方差 |
增加特征量 | 解决高偏差 |
增加模型复杂度 | 解决高偏差 |
减小正则化强度 | 解决高偏差 |
增大正则化强度 | 解决高方差 |
-
对于高偏差问题,可以通过增加模型复杂度(例如:使用更高阶多项式、添加更多特征等)、调整模型参数、采用更强大的模型结构等方式来提升模型的学习能力和对数据的拟合度。
-
对于高方差问题,则需要采取正则化技术(如L1、L2正则化)、增大训练数据量等手段来减少模型对训练数据的过拟合,提高模型在未知数据上的稳定性和泛化能力。