概率与期望基础-编程知识

概率与期望基础

news/2025/4/2 15:40:17/文章来源:https://www.cnblogs.com/kuailedetongnian/p/18548031

实验、结果、样本空间、事件

事件 \(A\) 是否发生取决于一系列影响它的因素，这些因素影响 \(A\) 的过程称为一次 experiment 实验 或 trial 试验

一次试验的 result 结果 称为它的 outcome 结局。

\(\text{result}\) 指由原因所引起的结果
\(\text{outcome}\) 强调事件特有的结局，表示最终的结果。

在通常情况下，我们不能在试验结束前提前预知它的结果，我们只能列出有可能出现的结果。

一次试验的所有可能结果组成的集合称为 sample space 样本空间，记作 \(\Omega\).

例如，扔一枚质地均匀的骰子，样本空间为 \(\Omega = \{1, 2, 3, 4, 5, 6\}\)

我们可以列出一些事件：结果是 \(1\) \(A = \{1\}\)，结果是偶数 \(A = \{2, 4, 6\}\)

若 \(A \cap B = \emptyset\)，我们称事件 \(A, B\) disjoint 不相容，或者互斥。

空集 \(\emptyset\) 表示 impossible event 不可能事件，因为其中没有元素，\(\emptyset\) 代表的事件不可能发生。
全集 \(\Omega\) 表示 certain event 必然事件，因为 \(\Omega\) 包含了试验可能的所有结果，因此一定会发生。

事件是样本空间 \(\Omega\) 的子集，但是 \(\Omega\) 的子集一定表示事件吗？答案是否定的，但是这个问题解释起来非常困难。

概率

接下来，我们希望能够量化事件发生的几率。
假设我们在相同条件下重复进行了 \(N\) 次完全相同的试验，设 \(A\) 是一个事件，在每一次试验中，\(A\) 可能发生，也可能不发生。

大量的科学试验表明，随着试验次数 \(N\) 越来越大，事件 \(A\) 发生的比例逐渐趋近于一个常数，记 \(N(A)\) 表示 \(A\) 发生的次数，即

\[\lim\limits_{n\rightarrow \infty}{\frac{N(A)}{N}= \text{A constant value}} \]

我们可以用这个极限值描述 A 在试验中发生的概率 \(\mathbb{P}(A)\)，显然这个概率值在 \(0\) 和 \(1\) 之间。

概率函数 \(\mathbb{P}\) 具有有穷可加性，即 \(A_1,A_2,A_3,\dots,A_n\) 为互斥事件，有

\[\mathbb{P}(\bigcup_{i=1}^n A_i) = \sum\limits_{i=1}^n\mathbb{P}(A_i) \]

不可能事件的概率 \(\mathbb{P}(\emptyset) = 0\)。

必然事件的概率 \(\mathbb{P}(\Omega) = 1\)。

但是反过来是不成立，概率为 0 的事件并不是不可能事件，它是有可能发生的！

例如在 \([0,1]\) 区间内随机选择一个实数 \(x\)，\(x=0.1\) 的概率为 \(0\)，但事实上 \(x=0.1\) 是可能发生的。

对于事件 \(A\)，有

\[\mathbb{P}(A) + \mathbb{P}(A^c)=1 \]

证明：因为 \(A \cap A^c = \emptyset, A \cup A^c = \Omega\)，根据概率函数的有穷可加性，有 \(\mathbb{P}(\Omega) = \mathbb{P}(A \cap A^c) = \mathbb{P}(A) + \mathbb{P}(A^c) = 1\)

概率的容斥

对于 \(n\) 个事件 \(A_1,A_2,\dots,A_n\)，有

\[\begin{aligned}\mathbb{P}\left(\bigcup_{i=1}^nA_i\right)&=\sum_i\mathbb{P}\left(A_i\right)-\sum_{i<j}\mathbb{P}\left(A_i\cap A_j\right)+\sum_{i<j<k}\mathbb{P}\left(A_i\cap A_j\cap A_k\right)-\cdots+(-1)^{n+1}\mathbb{P}\left(A_1\cap A_2\cap\cdots\cap A_n\right)\end{aligned} \]

条件概率

事件 \(B\) 发生的情况下事件 \(A\) 发生的概率。

假设我们重复进行了 \(N\) 次试验，每次试验考虑 \(A\)，\(B\) 是否发生。

现在换一种视角，仅考虑事件 \(B\) 已经发生了的试验，而不考虑其它试验，那么事件 \(A\) 发生的试验占比为 \(\frac{N(A\cap B)}{N(B)} = \frac{\frac{N(A\cap B)}{N}}{\frac{N(B)}{B}}\)。

若 \(\mathbb{P}(B) > 0\)，那么在已知事件 \(B\) 发生的条件下，事件 \(A\) 发生的
conditional probability 条件概率 定义为

\[\mathbb{P}(A|B) = \frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)} \]

事件的划分

\[\text{对于样本空间 }\Omega\text{ 下的一组事件 }B_1,B_2,\ldots,B_n,\text{ 如果满足}\\B_i\cap B_j=\varnothing\quad\mathrm{when}\quad i\neq j,\quad\mathrm{and}\quad\bigcup_{i=1}^nB_i=\Omega\\\text{那么称 }B_1,B_2,\ldots,B_n\text{ 为 }\Omega\text{ 的一个 }partition(\text{划分}). \]

对于样本空间 \(\Omega\) 下的一组事件 \(B_1,B_2,\dots,B_n\)，如果满足

\[\forall i,j,i\neq j,B_i\cap B_j = \emptyset \\ \bigcup_{i=1}^nB_i=\Omega \]

那么称 \(B_1,B_2,\dots,B_n\) 为 \(\Omega\) 的一个 partition 划分。

全概率公式

对于事件 \(A\)，若 \(B_1,B_2,\dots,B_n\) 是 \(\Omega\) 的一个划分，且 \(\mathbb{P}(B_i)>0\)，则有

\[\mathbb{P}(A) = \sum\limits_{i=1}^n\mathbb{P}(A|B_i)\mathbb{P}(B_i) \]

贝叶斯公式

若 \(B_1,B_2,\dots,B_n\) 是 \(\Omega\) 的一个划分，则有

\[\mathbb{P}(B_i|A) = \frac{\mathbb{P}(A|B_i)\mathbb{P}(B_i)}{\sum_{j=1}^n\mathbb{P}(A|B_j)\mathbb{P}(B_j)} \]

根据条件概率的定义，我们知道

\[\mathbb{P}(B_i|A)\mathbb{P}(A)= \mathbb{P}(A|B_i)\mathbb{P}(B_i) \]

把 \(\mathbb{P}(A)\) 用全概率公式展开再除过去就是贝叶斯公式。
全概率公式本质上是把事件 \(A\) 划分为一系列的子事件，通过这些子事件求出 \(A\) 的概率，贝叶斯公式则正好相反。

独立性

很多情况下，事件 \(B\) 的发生会改变事件 \(A\) 发生的概率，也就是说 \(\mathbb{P}(A)\to\mathbb{P}(A|B)\)

如果 \(A\) 的概率没有发生变化，也就是 \(\mathbb{P}(A|B)=\mathbb{P}(A)\)，那么我们称
事件 \(A,B\) 是 independent 独立的。

事件 \(A,B\) 是独立的，当且仅当

\[\mathbb{P}(A\cap B) = \mathbb{P}(A) \mathbb{P}(B) \]

例子：设某次试验的样本空间 \(\Omega=\{1,2,\dots,p\}\)，其中 \(p\) 为素数，且对于任意
事件 \(A\)，有 \(\mathbb{P}(A)=\frac{ |A| }{p}\)

证明：若事件 \(A,B\) 独立，则 \(A,B\) 中至少有一个是 \(\emptyset\) 或 \(\Omega\)。

设 \(|A|=a,|B|=b,|A\cap B|=c\)，由 \(A,B\) 独立得 \(\frac{c}{p}=\frac{a}{p}\cdot\frac{b}{p}\Rightarrow ab=pc\)。

若 \(ab=0\)，则 \(A,B\) 中至少有一个是 \(\emptyset\)。

若 \(ab\neq 0\)，则 \(p|ab\)，而 \(p\) 是质数，则 \(p|a\) 或 \(p|b\)，即 \(A,B\) 中至少有一个 \(\Omega\)。

随机变量

我们通常对一些试验的结果更感兴趣，而不是试验本身。也就是说，我们希望把试验的结果用实数来表示。

我们把用实数表示试验结果的过程看成一种函数，其定义域为 \(\Omega\)，值域为 \(\mathbb{R}\)，这样的函数被称为 random variables 随机变量。

例子：投掷一枚均匀的硬币两次，则 \(\Omega=\{\mathrm{HH},\mathrm{HT},\mathrm{TH},\mathrm{TT}\}\)

对于 \(\omega\in\Omega\)，定义随机变量 \(X(\omega)\) 表示正面朝上的次数，则 \(X(\mathrm{HH})=2, X(\mathrm{HT})=X(\mathrm{TH})=1, X(\mathrm{TT})=0\)

随机变量是函数，我们可以直接用函数符号 \(X\) 表示一个随机变量，而不必写成 \(X(\omega)\)，通常我们用大写字母 \(X, Y, Z\) 表示随机变量。

随机变量的分布

在上面的例子中，我们计算出了各试验结果下，随机变量 X 的函数值，接下来的问题则是核心，我们希望得到试验结果的分布。换句话说，我们希望求出 X 的所有取值的概率。

例如，在上面的例子中，

\[\mathbb{P}(X=2)=\mathbb{P}(\mathrm{HH})=\frac14\\ \mathbb{P}(X=1)=\mathbb{P}(\mathrm{HT}\cup \mathrm{TH})=\frac12\\ \mathbb{P}(X=0)=\mathbb{P}(\mathrm{TT})=\frac14 \]

这就是随机变量 X 的概率分布。

数学期望

现在我们知道，对于随机变量 \(X\)，我们可以写出它的概率分布。
随机变量 \(X\) 刻画了试验的结果，我们希望描述一次试验在平均情况下的表现，一个简单的想法就是把 \(X\) 的取值与对应的概率加权平均。

随机变量 \(X\) 的 expectation 期望 或 mean 均值 定义为

\[\mathbb{E}(X) = \sum\limits_{X=x}{x\mathbb{P}(X=x)} \]

对于随机变量 \(X\) 与函数 \(g\)，有

\[\mathbb{E}(g(X)) = \sum\limits_{x}g(x)\mathbb{P}(X=x) \]

证明：

\[ \begin{aligned} & \mathbb{E}(g(X))\\ &= \sum\limits_{y}{y\mathbb{P}(g(X)=y)}\\ &= \sum\limits_y\sum\limits_{x:g(x)=y}{y\mathbb{P}(X=x)}\\ &= \sum\limits_{x}g(x)\mathbb{P}(X=x) \end{aligned} \]

数学期望是线性的，即对于随机变量 \(X, Y\) 和 \(a, b\in \mathbb{R}\)，有

\[\mathbb{E}(aX+bY)=a\mathbb{E}(X)+b\mathbb{E}(Y) \]

证明：

\[\begin{aligned} \mathbb{E}(aX+bY)& =\sum_{x,y}(ax+by)\mathbb{P}(X=x,Y=y) \\ &=a\sum_{x,y}x\mathbb{P}(X=x,Y=y)+b\sum_{x,y}y\mathbb{P}(X=x,Y=y) \\ &=a\sum_xx\mathbb{P}(X=x)\sum_y\mathbb{P}(Y=y)+b\sum_x\mathbb{P}(X=x)\sum_yy\mathbb{P}(Y=y) \\ &=a\sum_xx\mathbb{P}(X=x)+b\sum_yy\mathbb{P}(Y=y) \\ &=a\mathbb{E}(X)+b\mathbb{E}(Y) \end{aligned} \]