【机器学习】比较全面的XGBoost算法讲解-编程知识

本文是《机器学习入门基础》（黄海广著）的第十章的部分内容。

XGBoost算法

XGBoost是2014年2月由华盛顿大学的博士生陈天奇发明的基于梯度提升算法(GBDT)的机器学习算法，其算法不但具有优良的学习效果，而且训练速度高效，在数据竞赛中大放异彩。

XGBoost 是大规模并行Boosting Tree 的工具，它是性能和速度俱佳的开源Boosting Tree 工具包，比常见的工具包快很多倍。XGBoost 和 GBDT 两者都是Boosting 方法，除了工程实现、解决问题上的一些差异外，最大的不同就是目标函数的定义。

10.5.1 算法思想

XGBoost算法原理主要是以下几个方面：

1.防止过拟合

机器学习算法的泛化误差可以分为偏差(Bias)和方差(Variance)两部分。偏差指的是算法的期望预测与真实预测之间的偏差程度，反应了模型本身的拟合能力；方差度量了同等大小的训练集的变动导致学习性能的变化，刻画了数据扰动所导致的影响。

如图10-9所示，随着机器学习的模型复杂度增加，偏差越来越小，但方差却越来越大，而当模型越简单时，模型的方差很小，偏差却往往越大，也就是说，高方差导致过拟合，而高偏差导致欠拟合。

图10-9 机器学习方差和偏差

XGBoost有效解决了过拟合问题，对叶节点的权重进行了惩罚，防止过拟合，惩罚相当于添加了正则项，即目标函数为：训练损失加上正则项。

2.采用二阶泰勒展开加快收敛

GBDT的损失函数用了一阶收敛，用到了梯度下降，XGBoost的方法是用牛顿法进行二阶收敛，即将损失函数做二阶泰勒展开，使用前两阶作为改进的残差。梯度下降法是用了目标函数的一阶偏导数，而牛顿法就是用用了目标函数的二阶偏导数，二阶偏导数考虑了梯度的变化趋势，所以牛顿法会更容易收敛。图10-10显示了牛顿法(左)和梯度下降法(右)的迭代路径，可以发现，左边的路径更符合最优下降路径。使用二阶收敛，这也是XGBoost加快收敛的原因。

图10-10 牛顿法(左)和梯度下降法(右)

3.树构造的分裂条件采用导数统计量

在寻找最佳分割点时，XGBoost 也实现了一种完全搜索式的精确的贪心算法(Exact Greedy Algorithm)。这种搜索算法会遍历一个特征上所有可能的分裂点，分别计算其损失减小量，然后选择最优的分裂点。根据结构分数的增益情况计算出来选择哪个特征的哪个分割点，某个特征的重要性，就是它在所有树中出现的次数之和。即增益(Gain)计算完了之后会选择一个增益最高的特征来分裂，然后这个特征的重要性加1。

4.支持并行计算，可以采用多线程优化技术

XGBoost的并行，并不是说每棵树可以并行训练，XGBoost本质上仍然采用boosting思想，每棵树训练前需要等前面的树训练完成才能开始训练。

XGBoost的并行，指的是特征维度的并行：在训练之前，每个特征按特征值对样本进行预排序，并存储为Block结构，在后面查找特征分割点时可以重复使用，而且特征已经被存储为一个个block结构，那么在寻找每个特征的最佳分割点时，可以利用多线程对每个block并行计算。