机器学习——GBDT算法

机器学习——GBDT算法

在机器学习领域,梯度提升决策树(Gradient Boosting Decision Trees,简称GBDT)是一种十分强大且常用的集成学习算法。它通过迭代地训练决策树来不断提升模型性能,是一种基于弱学习器的提升算法。本文将详细介绍梯度提升树算法的原理,并与随机森林进行对比,最后给出Python实现的示例代码和总结。

1. 提升树模型

提升树模型是一种基于决策树的集成学习方法,它通过组合多棵决策树来构建一个更强大的模型。提升树模型的基本思想是,将一系列弱学习器(通常是决策树)线性叠加,每一棵树都在尝试修正前一棵树的残差,从而逐步提升整体模型的性能。

2. 梯度提升树

梯度提升树是提升树的一种形式,它通过梯度下降的方法来最小化损失函数。具体来说,梯度提升树使用梯度下降算法来最小化损失函数的负梯度,以此来更新当前模型,使得模型在每一轮迭代中更接近于真实标签。

3. 算法流程

梯度提升树的算法流程如下:

  1. 初始化模型为一个常数值,通常是训练集标签的均值。
  2. 对于每一轮迭代:
    • 计算当前模型的负梯度,作为残差的近似值。
    • 使用负梯度拟合一个回归树模型。
    • 将新拟合的树模型与当前模型进行线性组合,更新模型。
  3. 重复上述步骤直到满足停止条件(如达到最大迭代次数)。

4. 理论公式

梯度提升树的更新公式如下所示:

对于第 i i i轮迭代,模型 F i ( x ) F_i(x) Fi(x),损失函数 L ( y , F i ( x ) ) L(y, F_i(x)) L(y,Fi(x)),学习率 η \eta η,则模型 F i + 1 ( x ) F_{i+1}(x) Fi+1(x)的更新公式为:

F i + 1 ( x ) = F i ( x ) + η h i ( x ) F_{i+1}(x) = F_i(x) + \eta h_i(x) Fi+1(x)=Fi(x)+ηhi(x)

其中, h i ( x ) h_i(x) hi(x)是第 i i i棵树的预测结果。

5. 随机森林与GBDT的区别与联系

随机森林和梯度提升树都是基于决策树的集成学习方法,它们有一些相似之处,也有一些显著的区别。

  • 相似之处:

    • 都是通过组合多个决策树来构建强大的模型。
    • 都可以用于分类和回归问题。
  • 区别:

    • 随机森林是一种自助聚合技术,它通过随机抽样生成多个不同的训练集,并在每个训练集上训练一个决策树,最后通过投票或平均来获得最终结果。而梯度提升树是一种串行技术,它通过迭代地训练决策树,每个决策树都在尝试修正前一棵树的残差。
    • 随机森林中的每棵树是相互独立的,而梯度提升树中的每棵树是依次构建的,每一棵树都在尝试修正前一棵树的错误。
    • 随机森林中每棵树的预测结果是通过投票或平均来决定的,而梯度提升树中每棵树的预测结果是通过加权求和来决定的。

6. Python实现算法

以下是Python实现梯度提升树算法的示例代码:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from matplotlib.colors import ListedColormap# 加载数据集
iris = load_iris()
X, y = iris.data[:, :2], iris.target  # 取前两个特征# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 构建梯度提升树模型
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)
clf.fit(X_train, y_train)# 在测试集上进行预测
y_pred = clf.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Gradient Boosting Accuracy:", accuracy)# 绘制分类结果
def plot_decision_regions(X, y, classifier, test_idx=None, resolution=0.02):markers = ('s', 'x', 'o', '^', 'v')colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')cmap = ListedColormap(colors[:len(np.unique(y))])x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),np.arange(x2_min, x2_max, resolution))Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)Z = Z.reshape(xx1.shape)plt.contourf(xx1, xx2, Z, alpha=0.3, cmap=cmap)plt.xlim(xx1.min(), xx1.max())plt.ylim(xx2.min(), xx2.max())for idx, cl in enumerate(np.unique(y)):plt.scatter(x=X[y == cl, 0], y=X[y == cl, 1],alpha=0.8, c=[cmap(idx)],marker=markers[idx], label=cl)# 可视化分类结果
plt.figure(figsize=(10, 6))
plot_decision_regions(X_test, y_test, classifier=clf)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend(loc='upper left')
plt.title('Gradient Boosting Classification Result on Test Set')
plt.show()

在这里插入图片描述

7. 总结

本文介绍了梯度提升树(Gradient Boosting Decision Trees,GBDT)算法的原理、算法流程、理论公式,并与随机森林进行了对比。梯度提升树是一种基于决策树的集成学习方法,通过迭代地训练决策树来不断提升模型性能。相比于随机森林,梯度提升树是一种串行技术,每个决策树都在尝试修正前一棵树的残差,因此在某些情况下可能会更加灵活和有效。通过Python实现了梯度提升树算法,并在鸢尾花数据集上进行了模型训练和评估。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/564662.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序Skyline搜索框吸顶到navtab胶囊位置,丝滑Q弹动画

进入下面小程序可以体验效果&#xff1a; 基于官方原版demo加入了回弹动画 WXML: <scroll-viewclass"scroll-area"type"custom"scroll-yshow-scrollbar"{{false}}"worklet:onscrollend"handleScrollEnd"worklet:onscrollupdate&q…

正弦实时数据库(SinRTDB)简介

正弦实时数据库是长沙巨松软件科技有限公司为了解决工业传感器产生的海量数值型数据的存储、计算等需求而研发的产品。广泛应用于电力、冶金、石油、化工、燃气等多个领域。 正弦实时数据库的主要特点如下&#xff1a; 性能 单机支持管理一百万标签点。单机支持并发用户数超…

【教学类-50-01】20240324 “逻辑思维-得到APP”题目《七位考生上场排序》

作品展示&#xff1a; 背景需求&#xff1a; 2024年3月22日得到发布一道测试题&#xff0c;作为报名入门题&#xff08;营销题&#xff09; 母亲是逻辑思维得到APP的用户&#xff0c;她让我动脑做一下 我觉得可以用python写个代码做一下 通过排除法&#xff0c;获得72种符合问…

C++之移动语义与智能指针

目录 移动语义 1、几个基本概念的理解 2、复制控制语义的函数 3、移动控制语义的函数 3.1、移动构造函数: 3.2、移动赋值函数 4.区别 5、std::move函数 6.代码演示: 资源管理与智能指针 一、C语言中的问题 二、C的解决办法(RAII技术)&#xff1a; 三、四种智能指针…

就业班 第二阶段 2401--3.19 day4 主从复制

一、MySQL-Replication&#xff08;主从复制&#xff09; 1.1、MySQL Replication 主从复制&#xff08;也称 AB 复制&#xff09;允许将来自一个MySQL数据库服务器&#xff08;主服务器&#xff09;的数据复制到一个或多个MySQL数据库服务器&#xff08;从服务器&#xff09;…

【项目设计】基于MVC的负载均衡式的在线OJ

项目代码&#xff08;可直接下载运行&#xff09; 一、项目的相关背景 学习编程的小伙伴&#xff0c;大家对力扣、牛客或其他在线编程的网站一定都不陌生&#xff0c;这些编程网站除了提供了在线编程&#xff0c;还有其他的一些功能。我们这个项目只是做出能够在线编程的功能。…

Priority Queue实现栈和队列

在排序算法中&#xff0c;堆排序利用了完全二叉树形式的堆结构&#xff0c;结合了插入排序与合并排序的优点&#xff0c;能够以 O ( n log ⁡ n ) O(n\log{n}) O(nlogn)的时间完成排序。优先级队列是可基于堆结构进行实现的一种数据结构&#xff0c;在计算机系统中可以用来记录…

[AIGC] SQL中的数据添加和操作:数据类型介绍

SQL&#xff08;结构化查询语言&#xff09;作为一种强大的数据库查询和操作工具&#xff0c;它能够完成从简单查询到复杂数据操作的各种任务。在这篇文章中&#xff0c;我们主要讨论如何在SQL中添加&#xff08;插入&#xff09;数据&#xff0c;以及在数据操作过程中&#xf…

安装MQTTfx,并且模拟MQTT订阅发布

&#xff08;一&#xff09;软件安装 下面给出了mqttfx官网的链接&#xff0c;可以使用官网进行下载软件&#xff0c;不过因为一些可知的原因&#xff0c;可能无法打开&#xff0c;那么你可以使用我提供的百度网盘进行下载安装。 官网链接&#xff1a;Softblade GmbH - Home …

h5增强表单---数据列表和属性

h5增强表单---数据列表 下拉列表 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</ti…

Agent Workflows(智能体工作流)

1.目前使用LLM的方式 目前&#xff0c;我们主要在零样本模式下使用大型语言模型&#xff08;LLM&#xff09;&#xff0c;通过提供提示&#xff08;prompt&#xff09;&#xff0c;模型逐词&#xff08;token&#xff09;地构建最终的输出内容&#xff0c;其间并未实施任何操作…

【新手教程】mmselfsup训练教程及常见报错处理

mmselfsup教程 1.安装mmselfsup2.了解文件结构与配置3.训练常见报错1.报错&#xff1a;FileNotFoundError: [Errno 2] No such file or directory:data/imagenet/train/./train/n04311004/images/n04311004_194.JPEG2.报错&#xff1a;报错ImportError: /mmcv/_ext.cpython-38-…