C4.5算法

假设我们有一个关于餐厅顾客的数据集,其中包括9个样本,每个样本有3个属性:天气、是否有预订和是否是周末,以及一个类别标签,表示该顾客是否会来餐厅(是或否)。

数据集如下:

使用C4.5算法来构建决策树。

1、首先,计算整个数据集的信息熵,公式为:

 H(D) = -\sum_{i=1}^{k} p_i log_{2}^{p_i}

其中,k 表示类别的个数,p_i表示样本属于第 i 个类别的概率。

在本例中:

k=2

p_1=\frac{5}{9}

p_2=\frac{4}{9}

因此,整个数据集的信息熵为:

H(D) = -\frac{5}{9}log_2^\frac{5}{9} -\frac{4}{9}log_2^\frac{4}{9}\approx 0.99

2、接下来,计算每个属性的信息增益比。

以天气为例,计算其信息增益比的公式为:

GainRatio(A) = \frac{Gain(A)}{IV(A)}

其中

A :表示属性

Gain(A): 表示属性 $A$ 的信息增益

$IV(A)$ :表示属性 $A$ 的固有值

计算公式为:IV(A) = -\sum_{v=1}^{V} \frac{|D^v|}{|D|} log_2 \frac{|D^v|}{|D|}

其中:

$V$ :表示属性 $A$ 的取值个数

$D^v$ :表示选出属性 $A$ 取值等于 $v$ 的样本集合

在本例中,天气有三个取值,即晴天、阴天和雨天,因此 $V=3$

我们可以根据数据集中天气的取值,将数据集划分为三个子集:

  • 子集1:天气=晴天。该子集有4个样本,其中2个会来餐厅,2个不会来。
  • 子集2:天气=阴天。该子集有2个样本,其中2个会来餐厅
  • 子集3:天气=雨天。该子集有3个样本,其中1个会来餐厅,2个不会来。

计算子集1、子集2和子集3的信息熵:

H(D^{sunny}) = -\frac{2}{4}log_2^\frac{2}{4} -\frac{2}{4}log_2^\frac{2}{4} = 1

H(D^{cloudy}) = -log_2^1 =0

H(D^{rain}) = -\frac{1}{3}log_2^\frac{1}{3} -\frac{2}{3}log_2^\frac{2}{3} \approx0.918

计算天气的信息增益和固有值:

Gain(weather) = H(D) - \frac{5}{9}H(D^{sunny}) - \frac{2}{9}H(D^{cloudy})- \frac{2}{9}H(D^{rain})\approx 0.23

IV(weather) = -\frac{4}{9}log_2^\frac{4}{9} -\frac{2}{9}log_2^\frac{2}{9} -\frac{3}{9}log_2^\frac{3}{9} \approx 1.531

因此,天气的信息增益比为:

$GainRatio(weather) = \frac{Gain(weather)}{IV(weather)} \approx 0.15$

同样地,我们可以计算出其他属性的信息增益比,结果如下:

由于是否有预订的信息增益比最大,因此我们选择是否有预订作为划分属性,将数据集划分为有预订和无预订两个子集。

对于有预订的子集,其中所有样本都会来餐厅,因此我们可以将其转换为一个叶子节点,并赋予类别标签“是”;

对于无预订的子集,需要继续递归地执行上述步骤,直到所有子集都被转换为叶子节点。

最终的决策树如下:

是否有预订 = 是: 是
是否有预订 = 否:
|   天气 = 晴天: 否
|   天气 = 阴天: 是
|   天气 = 雨天: .....

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/5059.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

react ant table设置动态scroll,且某些列的长度固定

设置scroll x的值为列的个数*100 1.代码 const columns [ {title: 料号描述,dataIndex: itemDesc,align:left,width: 200,ellipsis: true,} ]<EditableProTableclassName"details-table"columns{columns}loading{loading}rowKey"id"value{dataSource}…

机器学习10:正则化-Regularization

目录 1.什么是正则化&#xff1f; 2.简化正则化&#xff1a;Lambda 3.两个练习 3.1 问题一 3.2 问题二 4.参考文献 1.什么是正则化&#xff1f; 考虑以下泛化曲线&#xff0c;它显示了训练集和验证集相对于训练迭代次数的损失。 图 1. 训练集和验证集的损失 图 1 显示了…

【高可用架构】聊聊故障和高可用架构设计

在架构设计中&#xff0c;高性能、高可用、可拓展以及安全等等有多种维度去判断架构的设计纬度&#xff0c;但是一般来说我们需要考虑具体的业务场景&#xff0c;去判断采用那种合适的架构方案&#xff0c;但是对于大多数的设计来说&#xff0c;都需要满足高性能、高可用。所以…

1752_使用Perl实现目录遍历

全部学习汇总&#xff1a; GreyZhang/speed_emacs: Try to make a new emacs configuration which is fast even on windows! (github.com) 关于Perl和Python的优劣我不去做什么分析&#xff0c;也不去发表什么深入的见解。我个人的学习过程是先Perl后Python再回到Perl。因为工…

Redis 高可用【主从复制 哨兵 集群】

主从复制&#xff1a;主从复制是高可用Redis的基础&#xff0c;哨兵和集群都是在主从复制基础上实现高可用的。主从复制主要实现了数据的多机备份&#xff0c;以及对于读操作的负载均衡和简单的故障恢复。缺陷&#xff1a;故障恢复无法自动化&#xff1b;写操作无法负载均衡&am…

【深度学习推荐系统 工程篇】二、从TF-Serving看生产环境的模型推理服务

前言 模型训练完成后&#xff0c;到在线部署是其所必须要做的一步&#xff0c;伴随模型结构复杂/算力增加&#xff0c;打造低延时/低资源占用的模型预测服务是模型上线的关键&#xff1b; tensorflow 很早就开源了tf-serving&#xff08;代码连接&#xff1a;https://github.…

1.1.1 Qt信号槽之connect与disconnect介绍

关于Qt信号槽中connect与disconnect介绍 首先我们要知道&#xff0c;如果想要使用Qt中的信号槽机制&#xff0c; 那么必须继承QObject类&#xff0c;因为QObject类中包含了信号槽的一系列操作&#xff0c;今天我们来讲解的是信号与槽怎么建立连接以及断开连接。 一、connect …

JSP原理以及基本语法

1、JSP原理 什么是JSP&#xff1f; Java Server Pages&#xff1a;Java服务器页面&#xff0c;和Servlet一样是动态Web技术&#xff01; 和HTML的区别&#xff1f; HTML是静态页面。在JSP页面中可以嵌入Java代码&#xff0c;为用户提供动态的数据。 JSP 和 Servlet 的关系…

前后端分离,通用分页js处理模板

功能 **可实现一个页面多个ajax无刷新分页列表** **可解决页面数量非常多的问题** 效果&#xff1a; 截图&#xff1a; 步骤&#xff1a; 第一步&#xff1a;创建一个index.html引入 <script src"./jquery-3.7.0.js"></script><link rel"st…

华为云GaussDB,能否成为数据库国产化替代的“更优选择”?

没有一个行业比数据库更需要长期主义&#xff0c;而在践行长期主义的道路上&#xff0c;国内数据库厂商中华为是不可忽视的存在。 近日&#xff0c;Gartner Peer Insights《Voice of the Customer for Cloud Database Management Systems&#xff0c;2023》报告发布&#xff0…

JMeter HTTP请求的详细指南,还不知道的快来看

目录 JMeter HTTP请求简介 什么是JMeter HTTP请求&#xff1f; 如何使用JMeter的HTTP请求&#xff1f; JMeter HTTP请求配置 创建JMeter HTTP请求 JMeter HTTP请求实例 结论 JMeter HTTP请求简介 在JMeter中&#xff0c;服务器名称和它的路径对于检查请求是否到达了正确…

10W+前端面试题面试资料八股文

点击下方链接获取全部内容文档题目及其答案: 10W前端面试题&面试资料&八股文题目及其答案 https://m.tb.cn/h.5a7v237?tkQeVPdsoKwr4 CZ3457 部分题目如下&#xff1a; 1. call丶apply丶bind区别及源码实现&#xff08;手写&#xff09; 不同点&#xff1a; call…