机器学习的核心目标是在未见过的新数据上实现准确预测。
当模型在训练数据上表现良好,但在测试数据上表现不佳时,即出现“过拟合”。这意味着模型从训练数据中学习了过多的噪声模式,从而丧失了在新数据上的泛化能力。
那么,过拟合的根本原因是什么?具体来说,
哪些特征(数据集的列)阻碍了模型在新数据上的有效泛化?
本文将基于实际数据集,探讨一种先进的方法来解答这一问题。
特征重要性在此场景下不再适用
如果你的第一反应是“我会查看特征重要性”,那么请重新考虑。
特征重要性无法直接反映特征在新数据上的表现。
实际上,特征重要性仅是模型在训练阶段所学内容的表现。如果模型在训练过程中学习到关于“年龄”特征的复杂模式,那么该特征的特征重要性将会很高。但这并不意味着这些模式是准确的(“准确”指的是一种具备泛化能力的模式,即在新的数据上依然成立)。
因此,我们需要采用不同的方法来解决这个问题。
https://avoid.overfit.cn/post/47520a73a5c6469cab1116b2f036accd