信息测量

news/2025/1/17 22:03:52/文章来源:https://www.cnblogs.com/wupeiru/p/18677733

目录
  • 1 信息熵
    • 1.1 信息
    • 1.2 信息熵(entropy)
    • 1.3 条件概率
    • 1.4 条件熵(Conditional entropy)
    • 1.5 联合熵(Joint entropy)
    • 1.6 离散随机向量的熵
  • 2 信息
    • 2.1 互信息
    • 2.2 条件互信息

1 信息熵

1.1 信息

一个随机事件 \(X\) 发生的概率为 \(p\),那么他的自信息(信息量)为

\[I=-\log p \]

如果 \(X\) 为多个随机事件的集合,则信息量为

\[I=-\sum_{x\in X}\log p(x) \]

上述内容表达的为离散的随机变量的计算方法,如果为连续的随机变量,则 \(P(x)\) 表示为概率密度
从上述公式可以看出,信息与事件出现的概率密切相关.

1.2 信息熵(entropy)

信息熵描述了信源整体的不确定程度,又称为平均信息量

\[ H(X)=-\sum_{x\in X}p(x) \log p(x)=-E_{X}[\log p(X)] \]

Remark: 信息的熵仅仅与其分布有关,而与随机变量 X 的取值无关
显然的,我们可以观察到下面这个关系:

\[ H(X)\leq \log|X| \]

等号成立的条件为 \(X\) 的分布均匀,任意事件的 \(p\) 相等

1.3 条件概率

在事件 \(B\) 已经发生的条件下,事件 \(A\) 发生的概率,称为条件概率 \(P(A|B)\),记作:

\[ P(A|B)=\frac{P(AB)}{P(B)} \]

当满足下列任一条件时,可以称事件 \(A\) 与事件 \(B\) 独立,反之认为事件 \(A\) 与事件 \(B\) 相关.

\[ P(A|B)=P(A),\qquad P(AB)=P(A)P(B) \]

1.4 条件熵(Conditional entropy)

条件熵描述的是以某个时间为前提时,随机变量 \(X\) 的不确定度.

\[ H(X|Y=y)=-\sum_{x\in X}p(x|y)\log p(x|y) \]

显然的,也可以发现:

\[ H(X|Y)\leq H(X) \]

等号成立的条件为 \(X,\ Y\) 相互独立
对于多个变量的情况,例如三个变量,如果已知 \(p(y)>0\):

\[p(x,y,z)=\frac{p(x, y)p(y,z)}{p(y)}=p(x,y)p(z|y)=p(x)p(y|x)p(z|y) \]

注意到,\(p(x,y)=p(x)p(y|x)\).
另外,对于条件概率分布的情况,我们有:

\[\begin{aligned} H(Y|X)&=-\sum_{x\in X,y\in Y} p(x,y)\log p(y|x)=-E[\log p(Y|X)]\\ &=-\sum_{x\in X}p(x)H(Y|X=x) \end{aligned} \]

1.5 联合熵(Joint entropy)

联合熵的可以理解为对于 \((X,\ Y)\) 联合信源的不确定度

\[ H(X,Y)=-\sum_{x\in X, y\in Y}p(x, y)\log p(x, y)=-E[\log p(X,Y)] \]

注意到:

\[ H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y) \]

且根据之前的不等式,我们可以观察得到:

\[ H(X,Y)\leq H(X)+H(Y) \]

1.6 离散随机向量的熵

可以视作条件概率嵌套进行理解和计算:

\[\begin{aligned} H(x^n)&=H(X_{1})+H(X_{2}|X_{1})+\dots+H(X_{n}|x_{1},\dots X_{n-1}) \\&=\sum^n_{i=1}H(X_{i}|x_{1},\dots,X_{i-1}) \\&=\sum^n_{i=1}H(X_{i}|x^{i-1}) \\ \end{aligned} \]

2 信息

2.1 互信息

对于随机变量 \(X,\ Y\),二者的互信息定义为:

\[I(X;Y)=\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}=E\left[ \log \frac{p(X,Y)}{p(X)p(Y)} \right] \]

上述定义中的 \(X,\ Y\) 可以互相调换位置
注意到: \(\frac{p(x,y)}{p(y)}=p(x|y)\),则有:

\[I(X;Y)=\sum_{x,y}p(x,y)\log \frac{p(x|y)}{p(x)}=E\left[ \log \frac{p(X|Y)}{p(X)} \right] \]

Tip 1: 随机变量 X 与其自身的互信息等于 X 的熵

\[I(X;X)=H(X) \]

Proof:

\[\begin{aligned} I(X;X)&=E\left[ \log \frac{p(X,X)}{p(X)p(X)} \right]\\ &=E\left[ \log \frac{p(X)}{p(X)p(X)} \right]\\ &=E\left[ \log \frac{1}{p(X)} \right]\\ &=-E\left[ \log p(X) \right]=H(X) \end{aligned} \]

Tip 2: 互信息与信息熵的关系

\[\begin{aligned} I(X;Y)&=H(X)-H(X|Y),\\ I(X;Y)&=H(Y)-H(Y|X),\\ I(X;Y)&=H(X)+H(Y)-H(X,Y) \end{aligned} \]

即互信息可以理解为 \(X,\ Y\) 的信息熵的相同部分
![[Pasted image 20250117212850.png]]
上图中,\(H(X,Y)\) 为两个圆之和,而对应随机变量的熵代表着对应的圆

2.2 条件互信息

对于随机变量 \(X\)\(Y\)\(Z\),当给定 \(Z\) 的时候,三者的互信息定义为:

\[I(X,Y|Z)=\sum_{x,y,z}p(x,y,z)\log \frac{p(x,y|z)}{p(x|z)p(y|z)}=E\left[ \log \frac{p(X,Y|Z)}{p(X|Z)P(Y|Z)} \right] \]

Tip 1: 条件互信息与互信息的关系

\[\begin{aligned} I(X;Y|Z)=\sum_{z}&p(z)I(X;Y|Z=z)\\ where\quad I(X;Y|Z=z)&=\sum_{x,y}p(x,y|z)\log \frac{p(x,y|z)}{p(x|z)p(y|z)} \end{aligned} \]

Tip 2: 随机变量 Z 为条件下,随机变量 X 与其自身的条件互信息等于给定条件 Z 情况下的 X 的条件熵

\[I(X;X|Z)=H(X|Z) \]

Tip 3: 基于 2.1 tip 2,我们可以容易进行推广

\[\begin{aligned} I(X;Y|Z)&=H(X|Z)-H(X|Y,Z),\\ I(X;Y|Z)&=H(Y|Z)-H(Y|X,Z),\\ I(X;Y|Z)&=H(X|Z)+H(Y|Z)-H(X,Y|Z) \end{aligned} \]

还没学完,边学边写/(ㄒoㄒ)/~~

1 Network Information Theory, Abbas El Gamal, Young-Han Kim
2 Information Theory and Network Coding, Raymond W. Yeung

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/870983.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【洛谷训练记录】【LGR-213-Div.4】洛谷入门赛 #31

训练情况赛后反思 模拟题差点红温,差一道字符串模拟题AK A题 问一个数 \(a\) 加多少后的个位数变成 \(b\),取出 \(a\) 的个位数,再用 \(b\) 去减,如果小于零答案再加十。 #include <bits/stdc++.h> // #define int long long #define endl \nusing namespace std;voi…

WSL2配置代理

1、关闭梯子 2、设置为mirrored模式该设置会生成 C:/Users//.wslconfig【可选】修改.wslconfig文件内容如下 [experimental] autoMemoryReclaim=gradual networkingMode=mirrored dnsTunneling=true firewall=true autoProxy=true3、打开cmd并执行wsl --shutdown 4、重新启动…

【MySQL架构】图解

你是一个程序员,你做了一个网站应用,站点里的用户数据,需要存到某个地方,方便随时读写。 很容易想到可以将数据存到文件里。 但如果数据量很大,想从大量文件数据中查找某部分数据,并更新,是一件很痛苦的事情。 那么问题就来了,有办法可以解决这个问题吗? 好办,没有什…

2025 郑州一测 T18: 双变量问题探讨

2025 高考加把劲 /qtContent已知函数 \(f(x) = \log_a x(a>0, a\neq 1)\), \(y = f(x)\) 关于 \(y=x\) 对称的函数记为 \(g(x)\). (I) 若 \(a>1\), 方程 \(f(x)-g(x)=0\) 有且仅有一个实数解, 求 \(a\) 的值. (II) 讨论方程 \(g(x) = x_a = 0\) 在 \((0, +\infty)\) 上实…

笑死

哈哈哈哈哈笑死这个中国银行的标志出现的恰到好处,我还以为是什么标识

C#数据结构与算法入门实战指南

前言 在编程领域,数据结构与算法是构建高效、可靠和可扩展软件系统的基石。它们对于提升程序性能、优化资源利用以及解决复杂问题具有至关重要的作用。今天大姚分享一些非常不错的C#数据结构与算法实战教程,希望可以帮助到有需要的小伙伴。 C#经典十大排序算法 主要讲解C#经典…

29. 数据库操作

一、SQL与数据库数据库 (database)是统一管理的、有组织的、可共享的大量数据的集合。数据库将数据存储在一个或多个表格中,管理这个数据库的软件称为 数据库管理系统(database management system, DBMS)。数据库不是针对具体的应用程序,而是立足于数据本身的管理,它将所…

用Mermaid画图

1、用Mermaid画图 mermaid.md TyporaPortable.rar mermaid.zip 目录1 Mermaid是什么1.1 概述1.2 网址官网地址:Github地址:图形图形几种图形名字节点与无名字节点设置样式:style, classDef, class, :::线条图形连线(--)及注释(%%)线条样式实线与虚线箭头实线与粗实线及箭头延…

【RabbitMQ】图解

你是一个程序员,假设你维护了两个服务 A 和 B。 A 服务负责转发用户请求到 B 服务,B 服务是个算法服务,GPU 资源有限,当请求量大到 B 服务处理不过来的时候,希望能优先处理会员用户的请求。 那么问题就来了,如果普通用户和会员用户同时发起请求,怎样才能做到会员优先呢?…

THREE.js学习笔记8——Textures

这个小节主要学习纹理,Texture 纹理是覆盖几何形状表面的图像,不同类型的纹理具有多种不同的效果。 这些纹理(尤其是金属性和粗糙度)遵循PBR原则基于物理的渲染 许多技术往往遵循现实生活中的方向以获得现实的结果 成为现实渲染的标准 许多软件、引擎和库都在使用它如何加载…

快速傅里叶变换总结

基本概念 对于求和式 \(\sum a_ix^i\),如果是有限项相加,称为多项式,记作 \[f(x)=\sum_{i=0}^n a_ix^i。 \]其中最高次项的次数为 \(n\),为 \(n\) 次多项式。 用 \(n+1\) 个点可以唯一地确定一个 \(n\) 次多项式,这一过程可以参考 拉格朗日插值。 引入 给定多项式 \(f(x),…

寒假学习1

老年人评估系统 初步整理web端思路先写了第一张信息表并搭建基本框架并编写了老年人信息添加功能