信息量,熵,交叉熵,相对熵的定义

news/2025/1/19 18:50:37/文章来源:https://www.cnblogs.com/gongzb/p/18679802

本文将介绍信息量,熵,交叉熵,相对熵的定义,以及它们与机器学习算法中代价函数的定义的联系。转载请保留原文链接:http://www.cnblogs.com/llhthinker/p/7287029.html

1. 信息量

信息的量化计算:

解释如下:

信息量的大小应该可以衡量事件发生的“惊讶程度”或不确定性:

如果有⼈告诉我们⼀个相当不可能的事件发⽣了,我们收到的信息要多于我们被告知某个很可能发⽣的事件发⽣时收到的信息。如果我们知道某件事情⼀定会发⽣,那么我们就不会接收到信息。 也就是说,信息量应该连续依赖于事件发生的概率分布p(x) 。因此我们想要寻找⼀个基于概率p(x)计算信息量的函数h(x),它应该具有如下性质:

  1. h(x) >= 0,因为信息量表示得到多少信息,不应该为负数。
  2. h(x, y) = h(x) + h(y),也就是说,对于两个不相关事件x和y,我们观察到两个事件x, y同时发⽣时获得的信息应该等于观察到事件各⾃发⽣时获得的信息之和;
  3. h(x)是关于p(x)的单调递减函数,也就是说,事件x越容易发生(概率p(x)越大),信息量h(x)越小。

又因为如果两个不相关事件是统计独⽴的,则有p(x, y) = p(x)p(y)。根据不相关事件概率可乘、信息量可加,很容易想到对数函数,看出h(x)⼀定与p(x)的对数有关。因此,有

满足上述性质。

2. 熵(信息熵)

对于一个随机变量X而言,它的所有可能取值的信息量的期望就称为熵。熵的本质的另一种解释:最短平均编码长度(对于离散变量

离散变量:

连续变量:

3. 交叉熵

现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的熵,即基于分布p给样本进行编码的最短平均编码长度为:

如果使用非真实分布q来给样本进行编码,则是基于分布q的信息量的期望(最短平均编码长度),由于用q来编码的样本来自分布p,所以期望与真实分布一致。所以基于分布q的最短平均编码长度为:

 上式CEH(p, q)即为交叉熵的定义。

4. 相对熵

将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数,即使用非真实分布q计算出的样本的熵(交叉熵),与使用真实分布p计算出的样本的熵的差值,称为相对熵,又称KL散度

KL(p, q) = CEH(p, q) - H(p)=

 

相对熵(KL散度)用于衡量两个概率分布p和q的差异。注意,KL(p, q)意味着将分布p作为真实分布,q作为非真实分布,因此KL(p, q) != KL(q, p)。

5. 机器学习中的代价函数与交叉熵

p(x) 是数据的真实概率分布,q(x) 是由数据计算得到的概率分布。机器学习的目的就是希望q(x)尽可能地逼近甚至等于p(x) ,从而使得相对熵接近最小值0. 由于真实的概率分布是固定的,相对熵公式的后半部分(-H(p)) 就成了一个常数。那么相对熵达到最小值的时候,也意味着交叉熵达到了最小值。对q(x) 的优化就等效于求交叉熵的最小值。另外,对交叉熵求最小值,也等效于求最大似然估计(maximum likelihood estimation)。
特别的,在logistic regression中, 
p:真实样本分布,服从参数为p的0-1分布,即XB(1,p
p(x = 1) = y
p(x = 0) = 1 - y
q:待估计的模型,服从参数为q的0-1分布,即XB(1,q
p(x = 1) = h(x)
p(x = 0) = 1-h(x)
其中h(x)为logistic regression的假设函数。
两者的交叉熵为: 

对所有训练样本取均值得: 
这个结果与通过最大似然估计方法求出来的结果一致。使用最大似然估计方法参加博客 Logistic Regression. 

 

Ref:

《模式识别与机器学习》1.6节

http://blog.csdn.net/rtygbwwwerr/article/details/50778098

https://www.zhihu.com/question/41252833

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/871798.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索照片新艺术:在线将你的照片转为油画杰作

在数字时代,我们每天都在捕捉生活的瞬间,但你是否想过将这些平凡的照片转变为独一无二的艺术品?今天,我要向大家推荐一个令人兴奋的在线平台——img4you,它利用尖端的AI技术,让你的照片瞬间“穿上”油画的华服。 轻松体验在线照片转油画: https://www.img4you.com/style…

通俗理解深度学习中的熵相关知识【信息量、熵、相对熵(KL散度)、交叉熵】

https://zhuanlan.zhihu.com/p/647312079 通俗理解:一个事件从不确定变为确定的难度有多大 往往某件事情发生概率越低,信息量越大,从不确定变为确定的难度越大 ex:【中国队想要在世界杯夺冠】这一事件发生概率极极极低,信息量非常大,想要实现即“从不确定变为确定”的难度…

IPv6路由

前言 在企业网络中,IPv6技术的应用越来越普及。IETF组织针对IPv6网络制定了两种路由协议RIPng和OSPFV3。 路由过程IPv6中的动态路由的下一跳为链路本地地址,静态路由为手动指定的单播地址 链路本地地址只在接口所连接的链路上有效,ping链路本地地址需要指定接口路由配置静态路…

【bp爆破流程】不知道存活用户的喷洒

经典情况: 无论是用户名不存在,还是用户名存在但密码错误,统一返回“用户名或密码错误”这种情况又要怎么办呢❓ 如果没有其他接口配合,我们是很难确定存活用户了,我们也不可能用5w的用户名和6w的密码字典去交叉爆破,量级达到30亿了都。这种情况下,我们首先可以挑一些常…

【SpringBoot应用】统计、监控 SQL 运行情况

基本概念 Druid,作为Java领域一款杰出的数据库连接池,不仅因其源自阿里巴巴的深厚背景而备受信赖,更以其卓越的功能性、性能表现以及高度可扩展性在众多数据库连接池中脱颖而出。 尽管HikariCP在速度上略有优势,但Druid凭借其强大的监控和扩展能力,成为了许多项目首选的数…

从0到1:AI微信红包开发全攻略,小白也能轻松上手!

AI编程时代真的来了!最近我重度沉迷AI编程,发现它简直是开发神器,前端页面、后端服务,都能轻松搞定,效率直接起飞!最近临近过年,我突然冒出一个想法:为什么不试试用AI来做个微信红包呢? 说干就干! 1. 明确需求 要用AI做红包,首先得了解微信红包的规则。简单来说,我…

【安全运营】安全风险管理

一、什么是安全风险二、如何评估安全风险2.1 确定影响范围2.2 确定威胁2.3 确定脆弱性2.4 计算风险值2.5 评估结论三、为什么要管理安全风险四、如何管理安全风险4.1 背景建立4.2 风险评估4.3 风险处理4.4 批准监督原创 xiejava fullbug在信息时代,信息已经成为第一战略资源,…

collectd:系统统计信息收集守护进程软件

一、概述二、主要功能三、应用场景四、与其他监控工具的比较五、安装与配置六、总结Collectd是一个系统统计信息收集守护进程(daemon),主要用于收集系统性能和提供各种存储方式来存储不同值的机制。 一、概述 •定义:Collectd是一个基于C语言研发的插件式架构的监控软件,通…

【Java】Java UML 类图绘制解析:结构与工具类型详解

前言常用UML绘图工具1、Visual Paradigm2. Lucidchart3. Draw.io (现名diagrams.net)4. PlantUML(推荐)5. StarUML类与类之间的关系UML中的关系是面向对象关系。PlantUML类之间的关系符号定义UML 类图实战1、类 (Class)2、接口 (Interface)3、实现 (Implementation)4、继承 (…

红黑树插入与删除操作的基本规则

刷题又久违刷到了红黑树的知识,才发现上次学完之后没有及时留下笔记,现在又回到了一知半解的状态。写技术笔记是多么重要啊(喝老鼠药.jpg),以下为这次学到知识的简单总结。 通俗来说 红黑树更像是一种有规则的“交通系统”,每个交叉口是一个节点,红色代表“警示”或“等…

【监控】大型系统高可用监控体系建设

监控体系是稳定性建设的必备措施,它可以分为多个子系统:异常的智能监控系统、调用链路跟踪系统、端到端的链路染色系统、业务数据轨迹重现系统、业务数据对账系统等。 一个有效的监控体系可以帮助快速识别和响应问题,从而最小化服务中断的风险。 一、异常的智能监控系统 利用…

两款开源的微信对话生成器,做成了在线小工具

如果你也想在社交媒体上、视频创作中或者日常娱乐里,展现出与众不同的一面,那么微信对话生成器绝对是你不可错过的好帮手。今天,就让我们一起走进3M万能在线工具箱https://3m.panziye.com中的两款微信对话生成器,看看它们如何为我们的创意插上翅膀。 微信对话在线生成器 这…