03 decision tree(决策树)

一、decision tree(决策树)

1. classification problems(纯度)

i . entropy (熵)

​ 作用:衡量一组数据的纯度是否很纯 ,当五五开时他的熵都是最高的,当全是或者都不是时熵为 0

在这里插入图片描述

i i . information gain (信息增益)

​ 父节点到子节点的熵的减少称为信息增益,处理分支熵的时候,选择使用熵的加权平均值来衡量熵值的高低,计算信息增益是为了看两阶之间如果增益太小的话则不需要分了
在这里插入图片描述

i i i . 多个&连续特征

a)one hot coding(独热编码)

​ **使用:**如果一个特征有多个可能取值,我们可以将多个取值都变为一种特征,然后取值变为0,1是否

b) 连续特征

​ **解决:**如果一个特征有连续的取值,类似体重,可以按照信息熵来划分一个界限

2、regression tree(回归树)

i. how to choosing a spilt

a). 根据方差选择回归树

​ 先计算出根节点的方差,然后计算不同特征分类以后的方差,选择方差差值较大的一个作为划分条件

在这里插入图片描述

i i. weaknesses of desicion tree

​ 改变数据集中的一个数据就会对最后的树造成很大的影响,形成一个根据不同条件划分的树

​ 解决:多构建几个树,使用树的合集来共同决策最后的结果,来投票最后的结果

二、决策森林

i. Sampling with replacement(有放回抽样)

​ **作用:**通过有放回的多次抽样,得到多个和原始训练集大小一样的训练集,与原始的相似但不同的新训练集

i i . Random forest algorithm

a) 袋装决策树

使用 : 使用放回抽样来生成新的dataset,用生成的新的dataset来训练模型,得到新的decision tree,一共重复m次,m 的取值一般为64-228,一般是100往后可能会收益递减。

b) random forest algorithm

与上面的不同: 袋装决策树会因为dataset的小的改变而改变根节点和附近的划分特征,而这里会选择从n个feature中选择 k 个特征,从中选择entropy最大feature来进行划分。

为什么比单一的决策树更加健壮: 因为有放回抽样给了很多个具有微小误差的dataset,训练了不同的决策树,对训练集很多小的变化的求平均

i i i. XGBoost (极端梯度增强)

​ **作用:**在前面创建随机森林过程中,对于每次当前dataset中训练错误,在下一次有放回的dataset中都有更大的机会从错误的例子中取出看,进行有针对的错误训练,使得更加 的高效

使用:

在这里插入图片描述

三 、Conclusion

1 . 决策树,集成树,神经网络的优缺点

i . 决策树和集成树的优缺点:

  • 能够很好的处理表格数据(结构化数据),类似于房价问题,将数据都可以做成一个表格的形式,然后我们可以做出分类或者回归预测的任务
  • 不建议在视频,图像,音频和文本等非结构化数据使用,神经网络能很好的处理非结构数据

i i .神经网络的优缺点

  • 决策树的训练时间很快,大型的神经网络的训练时间通常都是很慢
  • 能够很好的和transfer learning协同工作
  • 多个机器学习模型协同工作的系统,多个神经网络一起训练比多个决策树更加容易

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/323833.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络调试 UDP1,开发板用静态地址-入门5

https://www.bilibili.com/video/BV1zx411d7eC?p11&vd_source109fb20ee1f39e5212cd7a443a0286c5 1, 开发板连接路由器 1.1,烧录无OS UDP例程 1.2,Mini USB连接电脑 1.3,开发板LAN接口连接路由器 2. Ping开发板与电脑之间通信* 2.1 根据…

工智能基础知识总结--什么是RNN

什么是RNN RNN(循环神经网络)是一种用于处理时序数据的特殊结构的神经网络。所谓时序数据,是指句子、语音、股票这类具有时间顺序或者是逻辑顺序的序列数据。 RNN的折叠图和展开图为: RNN的参数为U、W和V三个矩阵,其中U为输出到隐藏层的参数矩阵,W为上一个时刻到当前时刻…

vue3 实现关于 el-table 表格组件的封装以及调用

一、示例图&#xff1a; 二、组件 <template><div class"sn-table" :class"props.colorType 1 ? : bg-scroll"><el-table :data"tableData" :row-class-name"tableRowClassName" height"500" style"…

红外传感器深入解析

引言 宇宙间的任何物体只要其温度超过零度就能产生红外辐射&#xff0c;事实上同可见光一样&#xff0c;其辐射能够进行折射和反射&#xff0c;这样便产生了红外技术&#xff0c;利用红外光探测器因其独有的优越性而得到广泛的重视&#xff0c;并在军事和民用领域得到了广泛…

听GPT 讲Rust源代码--compiler(8)

File: rust/compiler/rustc_trait_selection/src/solve/weak_types.rs 在Rust编译器的源代码中&#xff0c;rust/compiler/rustc_trait_selection/src/solve/weak_types.rs文件的作用是处理弱类型化解决方案。 在编译器中&#xff0c;当我们在代码中使用一个未经完全指定的泛型…

为了搞项目,我差点把京东 “爬“ 了个遍。。

最近在重构我的准备 智慧校园助手2.0 &#xff0c;奈何之前的相关数据放在服务器被小黑子黑了&#xff0c;准备重新搞点数据&#xff0c;借此和大家分享一波我之前做项目没数据该咋搞 &#x1f440;。 Java面试指南 & 大厂学习导航&#xff1a;www.java2top.cn 完整源码获取…

高精度电流源研究内容有哪些

高精度电流源是一种用于产生稳定、准确且可调的电流输出的设备。在电子测试与测量领域中&#xff0c;高精度电流源被广泛应用于校准、精密测量和实验研究等方面。下面安泰电子将介绍高精度电流源的研究内容&#xff0c;帮助大家全面了解其在电子领域中的重要性和应用。 一、性能…

Spring Beans的魔法门:解密多种配置方式【beans 四】

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 Spring Beans的魔法门&#xff1a;解密多种配置方式【beans 四】 前言XML配置方式1. 声明和配置Bean&#xff1a;2. 构造函数注入&#xff1a;3. 导入其他配置文件&#xff1a; java注解方式1. 使用Co…

Python从入门到网络爬虫(函数详解)

前言 函数是变成语言中最常见的语法&#xff0c;函数的本质就是功能的封装。使用函数可以大大提高编程效率与程序的可读性。函数是能够实现特定功能的计算机代码而已&#xff0c;他是一种特定的代码组结构。 函数的作用 1.提升代码的重复利用率&#xff0c;避免重复开发相同代…

01-线程池项目背景:C++的数据库操作

从0开始学习C与数据库的联动 1.原始方式-使用MySQL Connector/C 提供的API查询 1.1 数据库预操作 我的本地电脑上有mysql数据库&#xff0c;里面预先创建了一个database名叫chat&#xff0c;用户名root&#xff0c;密码password。 1.2 Visual Studio预操作 在Windows上使用…

JavaScript 基础三part1.数组

JavaScript 基础三part1.数组 2.1 数组是什么2.2 数组的基本使用&#xff08;1&#xff09;声明&#xff08;2&#xff09;取值&#xff08;3&#xff09;一些术语&#xff08;4&#xff09;遍历数组 2.3 操作数组&#xff08;1&#xff09;修改&#xff08;2&#xff09;新增&…

x-cmd pkg | doggo - 现代化的 DNS 客户端

目录 简介首次用户快速实验指南功能特点类似工具与竞品进一步探索 简介 doggo 是一个由 Karan Sharma 于 2020 年使用 Go 语言开发的 DNS 客户端。它类似于 dig 命令&#xff0c;但旨在以现代化、简洁和可读的格式输出 DNS 查询结果。 首次用户快速实验指南 使用 x doggo 即可…