机器学习（22）---信息熵、纯度、条件熵、信息增益-编程知识

机器学习（22）---信息熵、纯度、条件熵、信息增益

文章目录

- 1、信息熵
- 2、信息增益
- 3、例题分析

1、信息熵

1. 信息熵(information entropy)是度量样本集合纯度最常用的一种指标。信息的混乱程度越大，不确定性越大，信息熵越大；对于纯度，就是信息熵越大，纯度越低。

2. 纯度的通俗理解：一个盒子里只有白球，说明这个盒子很纯，纯度很高。一个集合里只有一类样本，比如表示男女的样本集合 $U =$ {男，男，…}，都是男的，那么就说这个集合纯度很高。

3. 信息熵公式如下所示，其中 $n$ 表示随机变量的可能取值数， $x$ 表示随机变量， $p (x)$ 表示随机变量的概率函数。

在这里插入图片描述

2、信息增益

1. 条件熵：在 $X$ 给定条件下， $Y$ 的条件概率分布的熵对 $X$ 的数学期望。

在这里插入图片描述

同理可知：

2. 信息增益：以某特征划分数据集前后的熵的差值。熵 $A$ -条件熵 $B$ ，是信息量的差值，表示此条件对于信息熵减少的程度。也就是说，一开始是 $Ａ$ 状态，用了条件后变成了 $B$ 状态，则条件引起的变化是 $A - B$ ，即信息增益。
熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合 $D$ 划分效果的好坏。
结论：好的条件就是信息增益越大越好，即变化完后熵越小越好（熵代表混乱程度，最大程度地减小了混乱）。因此我们在树分叉的时候，应优先使用信息增益最大的属性，这样降低了复杂度，也简化了后边的逻辑。