机器学习9-随机森林

随机森林(Random Forest)是一种集成学习方法,用于改善单一决策树的性能,通过在数据集上构建多个决策树并组合它们的预测结果。它属于一种被称为“集成学习”或“集成学习器”的机器学习范畴。

以下是随机森林的主要特点和原理:

1. 决策树的集成:随机森林通过构建多个决策树来解决问题。每个决策树都是一种分类器,通过对输入数据进行一系列的决策来进行分类。

2. 随机抽样:在构建每个决策树时,随机森林从原始数据集中进行有放回的随机抽样。这意味着每个决策树的训练数据都是从原始数据集中随机选择的,并且每个样本有可能在一个树中被多次选择,而在另一个树中可能一次都没有被选择。

3. 特征随机性:随机森林还引入了特征的随机性。在每个节点上,算法仅考虑一个随机子集的特征来进行分裂。这有助于确保每个决策树都不会过于依赖于某些具体特征。

4. 投票机制:随机森林中的每个决策树都对新样本进行分类,最终的分类结果是通过投票机制确定的。即,每个树投票给某一类别,最终选择得票最多的类别作为随机森林的最终预测结果。

优点:

  • 对于大量特征和样本的高维数据集,随机森林通常表现出色。
  • 对于缺失值和不平衡数据的处理较为鲁棒。
  • 通过对多个树的组合,降低了过拟合风险。

随机森林在实践中广泛应用于分类和回归问题,并且由于其性能和鲁棒性而成为许多机器学习任务的首选算法之一。

需求:

还是同样,预测哪些人具有购买SUV的可能性。

代码:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd### Importing the dataset
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values### Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)### Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)### Fitting Random Forest to the Training set
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier(n_estimators = 10, criterion = 'entropy', random_state = 0)
classifier.fit(X_train, y_train)### Predicting the Test set results
y_pred = classifier.predict(X_test)### Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)### Visualising the Training set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Random Forest Classification (Training set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()### Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Random Forest Classification (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

关键解释:

  1. 特征缩放:
  • 使用StandardScaler进行特征缩放,将特征数据进行标准化处理,使其具有零均值和单位方差。
  • 均值为零(Zero Mean): 通过减去特征的均值,可以使特征分布的中心位于零点。这样做有助于消除不同特征之间的偏差,确保模型不会在某些特征上过度拟合。如果某个特征的均值远离零,模型可能会更关注那些数值较大的特征。
  • 单位方差(Unit Variance): 通过除以特征的标准差,可以将特征的尺度统一为相似的范围。这是因为不同特征可能具有不同的数值范围,如果某个特征的值较大,它可能会在模型中占据主导地位,而忽略其他特征。通过保持单位方差,确保了所有特征对模型的贡献相对均衡。

2. 随机森林分类器:

    • 使用RandomForestClassifier创建一个随机森林分类器,设置树的数量(n_estimators)为10,划分标准(criterion)为'entropy',并指定随机种子(random_state)为0。
    • criterion: 这是用于衡量分裂质量的标准。在决策树的每个节点上,都需要选择一个特征进行分裂。criterion 参数定义了用于评估分裂质量的准则。在这里,设置为 'entropy',表示使用信息熵来度量不纯度。信息熵越低,表示节点的纯度越高,也就是说,样本越趋向于属于同一类别。

结果:

结论:

用随机森林预测的效果是很好的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/464858.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

30s学会RecyclerView创建动态列表

详细学习请参考官网 使用 RecyclerView 创建动态列表 | Android 开发者 | Android Developers (google.cn) 1.RecyclerView定义及其构造 少废话,就是一个视图控件,就像你刷小红书,东一块西一块很丝滑地滑动 就是 RecyclerView 如下图&a…

无心剑中译狄金森《你无法扑灭一场火》

You Cannot Put a Fire Out — 你无法扑灭一场火 Emily Dickinson 艾米莉狄金森 You cannot put a Fire out — A Thing that can ignite Can go, itself, without a Fan — Upon the slowest Night — 你无法扑灭一场火 一种东西,无需风扇 能在最舒缓悠长的夜…

go 语言爬虫库goquery介绍

文章目录 爬虫介绍goquery介绍利用NewDocumentFromReader方法获取主页信息Document介绍通过查询获取文章信息css选择器介绍goquery中的选择器获取主页中的文章链接 爬取总结 爬虫介绍 爬虫,又称网页抓取、网络蜘蛛或网络爬虫,是一种自动浏览互联网并从网…

leetcode(矩阵)74. 搜索二维矩阵(C++详细解释)DAY7

文章目录 1.题目示例提示 2.解答思路3.实现代码结果 4.总结 1.题目 给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 target 在矩阵中…

【计算几何】给定一组点的多边形面积

目录 一、说明二、有序顶点集三、无序顶点集3.1 凸多边形3.2 非凸多边形 四、结论 ​ 一、说明 计算多边形面积的方法有很多种。众所周知的多边形(如三角形、矩形、正方形、梯形等)的面积可以使用简单的数学公式计算。在这篇文章中,我将讨论…

Mysql Day04

mysql体系结构 连接层服务层引擎层(索引)存储层 存储引擎 存储引擎是基于表建立的,默认是innoDB show create table tb; 查看当前数据库支持的存储引擎 show engines; InnoDB 特点 DML(数据增删改)遵循ACID模…

重温阿里云宝塔面板部署前后端项目

首先祝大家新年快乐啊! 回到老家,便打算趁这一段空闲时间提升一下自己,重点是学习实践一下echarts相关内容,很多公司项目都需要实现可视化,所以在bilibili上找了黑马的一个教程开始学习,不同的是&#xff…

【CTFshow】VIP题目限免 通关

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【python】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏…

【java基础题型】录入3位数,求每一位是?

\t 制表符,用于整到8个格子 Scanner类,导入Scanner包(1),代码里导入Scanner类写录入,调用录入的对象的方法 通用求个位数,%10即可,余数不会小于除数 package java录入3位数;import java.util.Scanner; …

CC++内存管理

1、C&C++内存分布 如上代码中各变量的存储区域。 1. 栈又叫堆栈--非静态局部变量/函数参数/返回值等等,栈是向下增长的。 2. 内存映射段是高效的I/O映射方式,用于装载一个共享的动态内存库。用户可使用系统接口 创建共享共享内存,做进程间通信。 3. 堆用于程序运行时动态…

静态时序分析:建立时间分析

静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 在静态时序分析中,建立时间检查约束了触发器时钟引脚(时钟路径)和输入数据引脚(数据路径)之间的时序关系&#x…

《21天精通IPv4 to IPv6》第3天:IPv6地址配置——如何为不同的系统配置IPv6?

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …