信息论基础(持续更新)

news/2025/3/16 18:24:35/文章来源:https://www.cnblogs.com/Smera1d0/p/18775375

熵、相对熵与互信息

定义:一个离散型随机变量 \(X\) 的熵 \(H(X)\) 定义为:

\[H(X)=-\sum_{x \in X}p(x) \log p(x) \]

注释\(X\) 的熵又可以理解为随机变量 \(\log \frac{1}{p(X)}\) 的期望值

引理

  1. \(H(X) \geq 0\)
  2. \(H_b(X)=(\log_ba)H_a(X)\)

二元熵

\[H(X)= -p\log p-(1-p)\log (1-p) \rightarrow H(p) \]

\(H(p)\) 为上凸函数,在 \(p= \frac{1}{2}\) 时取得最大值 1

联合熵与条件熵

定义:对于服从联合分布为 \(p(x,y)\) 的一对离散随机变量 \((x,y)\) ,其联合熵 \(H(X,Y)\) 定义为:

\[\begin{align} H(X,Y)=&-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(x,y)\\ =&-E \log p(X,Y) \end{align} \]

定义:条件熵 \(H(Y|X)\) 定义为:

\[\begin{aligned} H(Y|X)=&\sum_{x \in X}p(x)H(Y|X=x)\\ =&-\sum_{x \in X}p(x)\sum_{y \in Y}p(y|x)\log p(y|x)\\ =&-\sum_{x \in X} \sum_{y \in Y}p(x,y)\log p(y|x)\\ =&-E \log p(Y|X) \end{aligned} \]

定理:链式法则

\[H(X,Y)=H(X)+H(Y|X) \]

证明

\[\begin{align} H(X,Y)=&-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(x,y)\\ =&-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(x) p(y|x)\\ =&-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(x) -\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(y|x)\\ =&-\sum_{x \in X}p(x) \log p(x)-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(y|x)\\ =&H(X)-H(Y|X) \end{align} \]

等价于:

\[\log p(X,Y)=\log p(X)+\log p(Y|X) \]

推论

\[H(X,Y|Z)=H(X|Z)+H(Y|X,Z) \]

相对熵和互信息

相对熵(relative entropy) 是两个随机分布之间距离的度量。相对熵 \(D(p||q)\) 度量当真实分布为 \(p\) 而假定分布为 \(q\) 时的无效性。

定义:两个概率密度函数为 \(p(x)\)\(q(x)\) 之间的相对熵或 \(\text{Kullback-Leibler}\) 距离定义为

\[\begin{align} D(p||q)=&\sum_{x \in X}p(x)\log \frac{p(x)}{q(x)}\\ =&E_p \log \frac{p(x)}{q(x)} \end{align} \]

互信息(mutual information) 是一个随机变量包含另一个随机变量信息量的度量。互信息也是给定另一个随机变量知识的条件下,原随机变量不确定度的缩减量。

定义:考虑两个随机变量 \(X\)\(Y\),它们的联合概率密度函数为 \(p(x,y)\),其边际概率密度函数为 \(p(x)\)\(p(y)\)。互信息 \(I(X;Y)\) 为联合概率分布 \(p(x,y)\) 和乘积分布 \(p(x)p(y)\) 之间的相对熵

\[\begin{align} I(X;Y)=&\sum_{x \in X,y \in Y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\\ =& D(p(x,y)||p(x)p(y)) \end{align} \]

注:一般情况下 \(D(p||q) \neq D(q||p)\)

熵和互信息的关系

互信息 \(I(X;Y)\) 可重写为:

\[\begin{align} I(X;Y)=&\sum_{x \in X,y \in Y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\\ =& \sum_{x \in X,y \in Y}p(x,y) \log \frac{p(x|y)}{p(x)}\\ =& \sum_{x \in X,y \in Y}p(x,y) \log p(x|y)-\sum_{x \in X,y \in Y}p(x,y) \log p(x)\\ =& \sum_{x \in X,y \in Y}p(x,y) \log p(x|y)-\sum_{x \in X}p(x) \log p(x)\\ =& H(X)-H(X|Y) \end{align} \]

由此可表明互信息 \(I(X;Y)\) 是给定 \(Y\) 的情况下 \(X\) 的不确定度的缩减量。

由对称性,可得:

\[I(X;Y)=H(Y)-H(Y|X) \]

\(H(X,Y)=H(X)+H(Y|X)\) 可得:

\[I(X;Y)=H(X)+H(Y)-H(X,Y) \]

最后注意到:

\[I(X;X)=H(X)-H(X|X)=H(X) \]

因此,随机变量和自身的互信息为该随机变量的熵,因此将熵称为自信息(self-information)

定理:互信息与熵的关系

\[\begin{align} I(X;Y)=&H(X)-H(X|Y)\\ I(X;Y)=&H(Y)-H(Y|X)\\ I(X;Y)=&H(X)+H(Y)-H(X;Y)\\ I(X;Y)=&I(Y;X)\\ I(X;X)=&H(X)\\ \end{align} \]

Venn 图:互信息和熵的关系可由文氏图给出

熵、相对熵与互信息的链式法则

定理(熵的链式法则)

\[H(X_1,X_2, \cdots ,X_n)=\sum_{i=1}^{n}H(X_i|X_{i-1},\cdots,X_1) \]

证明

\[\begin{align} H(X_1,X_2)=&H(X_1)+H(X_2|X_1)\\ H(X_1,X_2,X_3)=&H(X_1)+H(X_2,X_3|X_1)\\ =&H(X_1)+H(X_2|X_1)+H(X_3|X_2,X_1)\\ \cdots\\ H(X_1,X_2, \cdots ,X_n)=&\sum_{i=1}^{n}H(X_i|X_{i-1},\cdots,X_1) \end{align} \]

定义(条件互信息):随机变量 \(X\)\(Y\) 在给定随机变量 \(Z\) 时的条件互信息定义为

\[\begin{align} I(X;Y|Z)=&H(X|Z)-H(X|Y,Z)\\ =&E_{p(x,y,z)} \log \frac{p(X,Y|Z)}{p(X|Z)p(Y|Z)} \end{align} \]

定理(互信息的链式法则)

\[I(X_1,X_2,\cdots ,X_n;Y)=\sum^n_{i=1}I(X_i;Y|X_{i-1},X_{i-2},\cdots ,X_1) \]

证明

\[\begin{align} I(X_1,X_2,\cdots ,X_n;Y)=&H(X_1,X_2,\cdots ,X_n)-H(X_1,X_2,\cdots ,X_n|Y)\\ =& \sum_{i=1}^n H(X_i|X_{i-1},\cdots,X_1)-\sum_{i=1}^n H(X_i|X_{i-1},\cdots,X_1,Y)\\ =& \sum_{i=1}^n I(X_i;Y|X_{i-1},\cdots,X_1) \end{align} \]

Jensen 不等式及其结果

定义(下凸函数):若对于任意的 \(x_1,x_2 \in (a.b)\)\(0 \leq \lambda \leq 1\),满足

\[f(\lambda x_1+(1-\lambda)x_2) \leq \lambda f(x_1)+(1-\lambda)f(x_2) \]

则称函数 \(f(x)\) 在区间 \((a,b)\) 上是严格下凸的。

定理:如果函数 \(f\) 在某个区间存在非负的二阶导数,则 \(f\) 为该区间的凸函数。

定理(Jessen 不等式):若给定一个下凸函数 \(f\) 和一个随机变量 \(X\) ,则

\[Ef(X)\geq f(EX) \]

证明:利用数学归纳法进行证明,对于一个两点分布,我们有

\[p_1f(x_1)+p_2f(x_2)\geq f(p_1x_1+p_2x_2) \]

设分布点个数为 \(k-1\) 的时候定理成立,此时记 \(p_i'=\frac{p_i}{1-p_k}(i=1,2,\dots k-1)\),则有

\[\begin{align} \sum_{i=1}^k p_if(x_1) =& p_kf(x_k)+(1-p_k)\sum_{i=1}^{k-1}p_i'f(x_i)\\ \geq & p_kf(x_k)+(1-p_k)f(\sum_{i=1}^{k-1}p_i'x_i)\\ \geq & f(p_kx_k+(1-p_k)\sum_{i=1}^{k-1}p_i'x_i)\\ \geq & f(\sum_{i=1}^k p_ix_i) \end{align} \]

定理(信息不等式):设 \(p(x)\)\(q(x)\) 为两个概率密度函数,则

\[D(p(x)||q(x)) \geq 0 \]

当且仅当对任意的 \(x\)\(p(x)=q(x)\) 时等号成立。

证明

\[\begin{align} -D(p||q)=&-\sum_{x \in X}p(x)\log \frac{p(x)}{q(x)}\\ =&\sum_{x \in X}p(x)\log \frac{q(x)}{p(x)}\\ \leq & \log \sum_{x \in X} p(x)\frac{q(x)}{p(x)}\\ =& \log \sum_{x \in X} q(x)\\ =& \log 1\\ =& 0 \end{align} \]

当且仅当 \(\frac{q(x)}{p(x)}=c\) 时等号成立,\(\sum_{x \in X}c p(x)=1 \rightarrow c=1 \rightarrow p(x)=q(x)\)

推论(互信息的非负性):对于任意两个随机变量 \(X\)\(Y\)

\[I(X;Y) \geq 0 \]

证明\(I(X;Y)=D(p(x,y)||p(x)p(y)) \geq 0\),当且仅当 \(p(x,y)=p(x)p(y)\) ,即 \(X\)\(Y\) 相互独立时取等号。

定理\(H(X) \leq \log |\chi|\),其中 \(\chi\)\(X\) 的字母表 \(\chi\) 的元素个数,当且仅当 \(X\) 服从 \(\chi\) 上的均匀分布时,等号成立。

证明:设 \(u(x)=\frac{1}{|\chi|}\)\(p(x)\) 是随机变量 \(X\) 的概率密度函数,有

\[D(p||u)=\sum p(x)\log \frac{p(x)}{u(x)}= \log |\chi | -H(X) \geq 0 \]

定理(条件作用使熵减小)

\[H(X|Y) \leq H(X) \]

\(X\)\(Y\) 相互独立时,等号成立。

定理(熵的独立界)

\[H(X_1,X_2, \cdots ,X_n) \leq \sum_{i=1}^n H(X_i) \]

当且仅当 \(X_i\) 相互独立时等号成立。

证明:根据熵的链式法则

\[\begin{align} H(X_1,X_2, \cdots ,X_n) = & \sum_{i=1}^n H(X_i|X_{i-1},\cdots,X_1)\\ \leq & \sum_{i=1}^n H(X_i) \end{align} \]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/899887.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数分笔记2

目录数项级数敛散性定义敛散性例:等比级数(几何级数)定理(级数 \(\sum a_n\) 的 Cauchy 收敛准测)例:\(p\)-级数(\(p>0\),实常数)命题“线性性”定义余项正项级数定义正项级数定理正项数列收敛的充要条件定理(比较原则)DAlembert(达朗贝尔判别法)(比式(比值)…

3.15总结

P1305 新二叉树 首先介绍一下何为先序遍历: 在二叉树中,对于每一对父亲与左右儿子,都按照{父亲,左儿子,右儿子}的顺序来遍历 例如有这样一棵树: 先序遍历的顺序:遍历1,输出“1” 遍历1的左儿子3,输出“3”遍历3的左儿子5,输出“5” 5没有左右儿子,返回3 遍历3的右儿…

SpringBoot配置文件的使用

一.全局文件配置 Spring Boot 使用全局配置文件来允许开发者自定义应用程序的配置。这些配置文件可以用来修改自动配置的设置,或者添加新的配置项。 配置文件的位置和命名:application.properties 或 application.yml:默认情况下,Spring Boot 会在以下位置查找配置文件,并…

SpringBoot配置

一.全局文件配置 Spring Boot 使用全局配置文件来允许开发者自定义应用程序的配置。这些配置文件可以用来修改自动配置的设置,或者添加新的配置项。 配置文件的位置和命名:application.properties 或 application.yml:默认情况下,Spring Boot 会在以下位置查找配置文件,并…

[vue]实现一个天气预报页面

Vue学习笔记之用Vue3+ element plus + axios实现一个天气预报页面前言 使用vue3 + element plus + axios。效果:步骤创建项目并安装依赖npm create vue@latestcd vue3-demo1 npm install npm run devnpm install --save axios vue-axios npm install element-plus --savemain.…

【启程】CSP2024 游记

前言 upd:——希君生羽翼,化北溟鱼,度春风。 初赛前一天晚上开坑,回忆一下去年J组的经历。 回忆幸运的第一轮 初赛是什么?做了一套22年的卷子,连蒙带猜差不多70pts?考场直接瞎写,一半左右都是蒙的,判断去全选对,完善程序全蒙,最后9个判断7个A,30pts的完型蒙到了15p…

[Webpack] 打包优化 二

optimization optimization这个配置项内部的很多优化策略都是在生产环境默认开启的,启用这些规则从一定程序上来讲可以显著减少 bundle 体积,优化代码生成,帮助长期缓存等。 optimization.minimize optimization.minimize指定 webpack 默认使用 terser-webpack-plugin 来压缩…

坐标转换软件 | CGCS2000 经纬度坐标 与 高斯克吕格3度投影平面坐标的互相转换

软件下载地址: 链接: https://pan.baidu.com/s/1ySwut1CpFLTSkGTVy792Fw?pwd=dyzj 提取码: dyzj 关于软件软件介绍:Fast坐标转换软件 是一款专为地理信息系统(GIS)和测绘领域设计的实用工具,旨在实现CGCS2000经纬度(地理坐标)与高斯-克吕格3度投影平面坐标之间的快速、精确转…

可持久化线段树(主席树)学习笔记

可持久化线段树(主席树)学习笔记主席树求解的问题一般是区间历史求值的问题,即对一些点进行操作后,求其中一个版本的答案 最朴素的方法就是每一次操作都将原线段树复制一遍,但是这样很费空间,而且产生了大量无用的点 但是可以发现,每次修改时所走的路径其实只经过了根到对…

FBI树

FBI树 题目描述 我们可以把由“0”和“1”组成的字符串分为三类:全“0”串称为B串,全“1”串称为I串,既含“0”又含“1”的串则称为F串。 FBI树是一种二叉树,它的结点类型也包括F结点,B结点和I结点三种。由一个长度为2N的“01”串S可以构造出一棵FBI树T,递归的构造方法如…

学嵌入式C语言,看这一篇就够了(4)

C语言的输入输出 C语言标准在发布的同时,ANSI组织同时也一起发布了和C语言相关的函数库,也就是标准C库,标准C库集成了很多的API函数接口,比如常用的输入和输出函数就是标准C库提供的 用户如果打算使用标准C库的函数,就必须要包含函数库对应的头文件,比如输入输出函数对应…

数字三角形最大路径和

1 #include <iostream>2 #include <vector>3 #include <algorithm>4 using namespace std;5 6 // 自顶向下的方式7 pair<int, vector<int>> maximumTotal(vector<vector<int>>& triangle) {8 int n = triangle.size();9 …