机器学习之——决策树信息熵计算[附加计算程序]

0 前言

  • 本文主要讲述了决策树背后的信息熵的公式含义及计算方式,并列举出多道例题帮助理解。

1 信息熵的定义

1.1 信息熵公式

image
笔者使用下图(1-1)直观理解信息熵的含义。
image
信息熵越大,表示该随机变量的不确定性越高。对于均匀分布,信息熵达到最大值。

1.2 证明:对于均匀分布,信息熵最大

笔者用一个简单的例子加以证明,假如随机变量X只取0和1,即随机变量X服从0 1分布,X的概率密度函数为:

X 概率p(0≤p≤1)
1 p
0 1-p

根据信息熵的公式,随机变量X的信息熵为:
image
结合下图(1-2),可以看出结论正确。
image

1.3 信息熵公式分析

信息熵的计算公式为什么是这样?log函数如下图(1-3)所示,根据概率论,假设某事情p的发生概率>0且<1,即0<p<1,有-∞<log2(p)<0。当出现极端情况,例如p=0或1(p=0或1表示信息很确定,而信息熵是衡量变量不确定性),则根据信息熵公式值为0,log2()函数所得出来的值是负的,需要再添加负号使信息熵变为正值。
image

2 信息熵的计算

2.1 数据集

假设有以下数据(后文使用该数据集),用于决策是否出去玩。

  • 属性id表示每个样本的编号。
  • 属性outlook表示户外天气。sunny晴天,overcast阴天,rainy雨天。
  • 属性temperature表示温度,hot热,mild温暖,cool冷。
  • 属性humidity表示湿度。high高,normal正常。
  • 属性windy表示是否有风。not没有,yes有。
  • 属性play表示是否出去玩。yes出去玩,no不出去玩。

数据集如下图(2-1)所示。
image

点击查看游玩数据集(CSV格式)
id,outlook,temperature,humidity,windy,play
1,sunny,hot,high,not,no
2,sunny,hot,high,yes,no
3,overcast,hot,high,not,yes
4,rainy,mild,high,not,yes
5,rainy,cool,normal,not,yes
6,rainy,cool,normal,yes,no
7,overcast,cool,normal,yes,yes
8,sunny,mild,high,not,no
9,sunny,cool,normal,not,yes
10,rainy,mild,normal,not,yes
11,sunny,mild,normal,yes,yes
12,overcast,mild,high,yes,yes
13,overcast,hot,normal,not,yes
14,rainy,mild,high,yes,no

2.2 计算变量Play的信息熵

该数据集总样本14个,play变量的取值只能是no或yes。

类别 个数 概率
play='no' 5 5/14
play='yes' 9 9/14

变量play的信息熵计算如下所示。
image

2.3 计算变量Outlook的信息熵

该数据集总样本14个,outlook变量的取值只能是overcast或rainy或sunny。

类别 个数 概率
outlook='overcast' 4 4/14
outlook='rainy' 5 5/14
outlook='sunny' 5 5/14

变量outlook的信息熵计算如下所示。
image

2.3 计算变量Temperature的信息熵

该数据集总样本14个,temperature变量的取值只能是cool或hot或mild。

类别 个数 概率
temperature='cool' 4 4/14
temperature='hot' 4 4/14
temperature='mild' 6 6/14

变量temperature的信息熵计算如下所示。
image

3 信息熵计算程序

稍后补充链接

4 结语

如有错误请指正,禁止商用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/788462.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

phpinclude-labs做题记录

Level 1 file协议payload:?wrappers=/flag Level 2 data协议 去包含data协议中的内容其实相当于进行了一次远程包含,所以data协议的利用条件需要 php.ini 中开启 allow_url_fopen 和 allow_url_include GET: ?wrappers=, 然后 POST:helloctf=system(cat /flag); Level 3 dat…

数据结构学习第一周

本文需要掌握的知识 1.认识数据结构 2.了解数据结构(逻辑结构)的分类 3.内存储器模型以及分配方式(物理结构) 4.认识Node类 5.简单了解泛型1 .数据结构(D-S/Data Structure) 1.1简介 1.1.1数据 分为原子数据和复合数据 1.1.2结构 分为逻辑结构和物理结构数据结构是由数据和数…

用 Higress AI 网关降低 AI 调用成本 - 阿里云天池云原生编程挑战赛参赛攻略

我们要在 Higress 网关中编写 WebAssembly(wasm)插件,使得在 http 请求的各个阶段(requestHeader,requestBody,responseHeader,responseBody)能够将相应的请求或返回捕获进行业务逻辑的处理。具体到本比赛,主要需要实现的是缓存对大模型的请求(openai 接口的形式)在…

科研项目管理工具选型全攻略

国内外主流的 10 款科研院所项目管理系统对比:PingCode、Worktile、云效、Tower 、Zoho Projects、Notion、Wrike、ClickUp、Asana、Teambition。在科研院所的日常运营中,项目管理系统的选择显得尤为重要。选择不当可能导致资源浪费、进度延误甚至项目失败,这是每个科研团队…

ensp使用交换机配置svi连通网段

ensp使用交换机配置svi连通网段 实验目的 如下图所示,PC1、PC2、PC3分别位于不同网段,使用S5700型号交换机连接,目前需要配置交换机和主机,主机能够互相连通。常用命令un in en:关闭信息通知 dis ip int b:显示端口ip配置情况(brief模式) dis ip routing-table:显示路…

B 端产品未来几年的发展趋势

未来几年,B 端产品领域将面临着诸多挑战和机遇。人工智能与机器学习的深度融合、云计算与容器化技术的持续发展、用户体验与设计的重要性日益凸显、数据安全与隐私保护的挑战与机遇、行业垂直化与专业化发展以及敏捷开发与持续交付的普及等趋势,将对 B 端产品经理提出更高的要…

postgresql下Schema和DataBase

database —> schema —> table 1.同一个实例下,不同database是不能相互访问的,即独立的。 2.同一个数据库,不同模式下的表是可以相互访问,即可共享的 3.不同模式下,表名可以是一样。也就是表在模式下是独立。 ##授权某个库下的某个模式下有创建表的权限grant creat…

使用 nuxi add 快速创建 Nuxt 应用组件

title: 使用 nuxi add 快速创建 Nuxt 应用组件 date: 2024/8/28 updated: 2024/8/28 author: cmdragon excerpt: 通过使用 nuxi add 命令,你可以快速创建 Nuxt 应用中的各种实体,如组件、页面、布局等。这可以极大地提高开发效率,减少手动创建文件的工作量。希望本文的示例…

Apache RocketMQ 批处理模型演进之路

RocketMQ 的目标,是致力于打造一个消息、事件、流一体的超融合处理平台。这意味着它需要满足各个场景下各式各样的要求,而批量处理则是流计算领域对于极致吞吐量要求的经典解法,这当然也意味着 RocketMQ 也有一套属于自己风格的批处理模型。作者:谷乂 RocketMQ 的目标,是致…

nginx: 两个解析日志的脚本

一,解析日志得到访问量最高的100个ip地址:awk {print $1} www.access_log | sort | uniq -c | sort -n -k 1 -r | head -n 100 效果如图:二,解析日志得到访问量最高的10个url 命令 [root@blog 27]# awk {print $7} 20240827_access.log|sort|uniq -c|sort -rn|head -10 返回例…

安全:关闭nginx/php的对外版本显示

一,关闭nginx的版本显示: 1,关闭前2,关闭nginx版本显示: 编辑nginx.conf [root@blog conf]# vi nginx.conf 增加一行: server_tokens off; 重新服务: [root@blog conf]# systemctl reload nginx.service 3,再次查看:二,关闭php的版本显示 1,关闭前2,关闭 编辑php.ini [roo…

gstreamer教程(5)——构建应用之element的使用

Element 元素:对于应用程序程序员来说, GstElement 对象是GStreamer 中最重要的对象。element (元素)是媒体Pipeline的基本构建块。您使用的所有不同的高级组件都派生自 GstElement。每个解码器、编码器、解复用器、视频或音频输出事实上都是一个 GstElement。 什么是元素:…