概率论 - 期末复习
跟概率空间相关的知识点(概率测度,波雷尔集等)可以全都忽略。
第一章
- 随机事件 \(A\) 发生的概率记作 \(P(A)\)。\(A,B\) 同时发生记作 \(AB\),\(A\) 或 \(B\) 发生记作 \(A\cup B\),\(A\) 不发生记作 \(\overline{A}\),\(P(\overline{A})=1-P(A)\)。
- 容斥原理:\(P(\cup_{i=1}^n A_i) = \sum_{k=1}^n(-1)^{k-1}\sum_{1\leq i_1<\dots<i_k\leq n}P(A_{i_1}\dots A_{i_k})\)。
- 独立随机事件:\(P(AB)=P(A)P(B)\)。
- 互斥随机事件:\(P(AB)=0\)。
- 条件概率:\(B\) 发生的条件下 \(A\) 发生,记作 \(A|B\)。\(P(AB)=P(B)P(A|B)\)。
- 全概率公式:设 \(B_1,\dots,B_n\) 两两互斥,则 \(P(A)=\sum_{i=1}^n P(A|B_i)P(B_i)\)。
- 贝叶斯公式:已知 \(P(B|A)\) 时算 \(P(A|B)\) 用。\(P(A|B) = \dfrac{P(A)P(B|A)}{P(B)}=\dfrac{P(A)P(B|A)}{P(A)P(B|A)+P(\overline{A})P(B|\overline{A})}\)(按需用)
第二章(上)
-
离散随机变量的分布列:\(P(X=x_i)=p_i\),满足 \(\sum_i p_i = 1\)。
-
离散随机变量的独立性:\(X\) 和 \(Y\) 独立,如果 \(P(X=a,Y=b)=P(X=a)P(Y=b),\forall a,b\)。\(X_1,\dots,X_N\) 独立,如果 \(P(X_1=x_1,\dots,X_N=x_N)=\prod_{i=1}^N P(X_i=x_i)\)。
-
两点分布:\(P(X=a)=p,P(x=b)=1-p\)。
-
二项分布/伯努利分布:\(n\) 次独立取样有 \(k\) 次取中的概率,等价于 \(n\) 个独立同分布的两点分布的和,记作 \(X\sim B(n,p)\)。
-
\(P(X=k)=\dbinom nkp^k(1-p)^{n-k}, k=0,1,\dots,n\)。
-
\(E(X) = np,Var(X) = np(1-p)\)(二项式定理)
-
二项分布对 \(n\) 有可加性。
-
-
泊松分布:记作 \(X\sim P(\lambda)\)。
- \(P(X=k) = e^{-\lambda}\dfrac{\lambda^{k}}{k!}, k=0,1,\dots\)。
- \(E(X) = \lambda,Var(X) = \lambda\) (\(e^x\) 泰勒展开)
- 泊松分布对 \(\lambda\) 有可加性。
-
几何分布:独立取样直到取中结束,共取 \(k\) 次的概率。
- \(P(X=k)=p(1-p)^{k-1},k=1,2,\dots\)。
- \(E(X) = \frac 1p, Var(X) = \frac{1-p}{p^2}\)(错位相减)
第二章(下)
-
连续随机变量的分布函数:\(F_X(x) = P(X< x)\)。\(F_X(-\infty)=0, F_X(+\infty)=1\),且 \(F_X\) 连续。
- 分布函数不仅限于连续随机变量,离散甚至混合型随机变量也可以定义。但此时 \(F_X\) 右连续且在概率集中的点处间断。
-
连续随机变量的密度函数:\(p_X(x)=F'_X(x)\),反之 \(F_X(x) = \int_{-\infty}^x p_X(s)ds\)。
-
连续随机变量的变换:
- \(X=f(Y), p_Y(y) = p_X(f(y))|f'(y)|\)。
- \(Y=g(X),p_Y(y) = \sum_{g(x)=y}p_X(x)|g'(x)|^{-1}\)。注意多对一情况,例如 \(Y=X^2,p_Y(y) = \frac{p_X(\sqrt y)+p_X(-\sqrt y)}{2\sqrt y}\)。
-
多维连续随机变量的联合分布:\(F_{X,Y}(x,y) = P(X<x,Y<y)\)。更多维同理。
-
多维连续随机变量的联合密度:\(F_{X,Y}(x,y) = \int_{-\infty}^x\int_{-\infty}^yp_{X,Y}(s,t)dsdt\)。给分布一般导不出密度。
-
多维连续随机变量的边际密度:把多余的变量都积掉,\(p_X(x)=\int_\mathbb{R}p_{X,Y}(x,y)dy\)。\(y\) 同理。
-
多维连续随机变量的变换:
- \(X=f(U,V),Y=g(U,V),p_{U,V}(u,v) = p_{X,Y}(f(u,v),g(u,v))|\det \frac{\partial(x,y)}{\partial(u,v)}|\)
- \(U=f(X,Y),V=g(X,Y),p_{U,V}(u,v) = \sum_{f(x,y)=u,g(x,y)=v}p_{X,Y}(x,y)|\det \frac{\partial(u,v)}{\partial(x,y)}|^{-1}\)
- 特别地,\(Z=g(X,Y), p_Z(z) = \int_{\mathbb{R}}\sum_{y,g(x,y)=z}p_{X,Y}(x,y)|z_y(x,y)|^{-1}dx\)(推导方法:变换为 \((X,Z)\))
-
连续随机变量的独立性:\(p_{X,Y}(x,y)=p_X(x)p_Y(y)\),多维同理。
-
条件密度函数:\(p_{X|Y}(x|y)=F'_{X|Y}(x|y)=\frac d{dx}P(X<x|Y=y)\)
-
\(p_{X,Y}(x,y)=p_{X|Y}(x|y)p_Y(y)\)
-
均匀分布:记为 \(X\sim U(a,b)\)
- \(p_X(x) = \frac 1{b-a}(a\leq x\leq b)\)
- \(E(X) = \frac {a+b}2, Var(X) = \frac{(b-a)^2}{12}\)
-
指数分布:记为 \(X\sim Exp(\lambda)\)
- \(p_X(x) = \lambda e^{-\lambda x}(x\geq 0)\)
- \(E(X) = \lambda^{-1}, Var(X) = \lambda^{-2}\)
- \(Exp(\lambda) = \Gamma(1,\lambda)\)
-
正态分布:记为 \(X\sim N(\mu, \sigma^2)\)
- \(p_X(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
- \(N(0,1)\) 的分布函数记为 \(\Phi(x)\)(无初等表达形式)。
- \(E(X) = \mu, Var(X) = \sigma^2\)
- 正态分布的线性变换仍为正态分布,即 \(aX+b\sim N(a\mu+b, a^2\sigma^2)\)。
- 正态分布相关的常用积分公式:\(\int_0^{+\infty}x^ne^{-x^2}dx=\frac 12\Gamma(\frac {n+1}2)\)(一般只需要 \(n=0,1,2\))。
-
\(\Gamma\) 分布:记为 \(X\sim \Gamma(\alpha,\lambda)\)
- \(p_X(x) = \dfrac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1}e^{-\lambda x}\)
- \(E(X) = \dfrac{\alpha}{\lambda}, Var(X) = \dfrac{\alpha}{\lambda^2}\)(直接凑密度函数的积分)
- 相同 \(\lambda\) 的 \(\Gamma\) 分布对 \(\alpha\) 有可加性
-
卡方分布:\(n\) 个独立同分布 \(N(0,1)\) 的平方和。记为 \(X\sim \chi^2(n)\)
-
\(p_X(x) = \dfrac{1}{2^n\Gamma(\frac n2)}x^{\frac n2-1}e^{-\frac x2}\)
-
\(E(X) = n, Var(X) = 2n\)
-
\(\chi^2(n) = \Gamma(\dfrac n2, \dfrac 12)\)
-
对 \(n\) 有可加性
-
第三章
- 离散随机变量的期望:\(E(X) = \sum_i x_iP(X=x_i)\)
- 连续随机变量的期望:\(E(X) = \int_\mathbb{R}xp(x)dx\),注意:期望存在要求积分绝对收敛,即 \(\int_{\mathbb{R}}|x|p(x)dx<+\infty\)
- 期望线性性:\(E(X+Y)=E(X)+E(Y),E(aX)=aE(X)\)(不要求 \(X,Y\) 独立或不相关)
- 条件期望:\(E(X|Y=y)=\sum_i x_iP(X=x_i|Y=y)=\int_\mathbb{R}xp_{X|Y}(x|y)dx\)
- 全期望公式:\(E(X) = E_Y(E_X(X|Y))\)
- 随机变量的方差:\(Var(X) = E(X-E(X))^2=E(X^2) - E(X)^2\)
- 方差线性性:\(Var(aX+b) = a^2Var(X), Var(X+Y) = Var(X)+2Cov(X,Y)+Var(Y)\)。
- \(Var(X)=0\) 当且仅当 \(X\) 为常数。
- 随机变量的协方差:\(Cov(X,Y) = E(XY) - E(X)E(Y)\)
- \(Cov(X,Y+Z)=Cov(X,Y)+Cov(X,Z)\)
- 随机变量的相关系数:\(r(X,Y) = \dfrac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}\)
- 随机变量的相关性:\(X,Y\) 不相关如果 \(Cov(X,Y)=0\)。不相关也等价于 \(E(XY)=E(X)E(Y)\)。
- 多个变量的协方差矩阵:\(Cov(\pmb{X}) = (Cov(X_i,X_j))_{d\times d}\)
- 多维正态分布:记为 \(\pmb{X}\sim N(\pmb{\mu}, \Sigma) \in \mathbb{R}^d\)
- \(p_{\pmb{X}}(\pmb{x}) = (2\pi)^{-\frac n2}|\Sigma|^{-\frac 12}\exp\{\frac 12(\pmb{x}-\pmb{\mu})^T\Sigma^{-1}(\pmb{x}-\pmb{\mu})\}\)
- \(E(\pmb{X}) = \pmb{\mu}, Cov(\pmb{X}) = \Sigma\)
- 特别地,当 \(d=2\) 时,也记 \((X_1,X_2)\sim N(\mu_1,\mu_2,\sigma_1,\sigma_2,r)\)。
- \(\pmb{\mu} = \begin{bmatrix}\mu_1 \\ \mu_2\end{bmatrix}, \Sigma = \begin{bmatrix}\sigma_1^2 & r\sigma_1\sigma_2 \\ r\sigma_1\sigma_2 & \sigma_2^2\end{bmatrix}\)
- \(p_{X_1,X_2}(x_1,x_2) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-r^2}} \exp\left[ -\frac{1}{2(1-r^2)}\left( \frac{(x_1-\mu_1)^2}{\sigma_1^2} - \frac{2r(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2} + \frac{(x_2-\mu_2)^2}{\sigma_2^2} \right) \right]\)
- \(r=0\) 时,\(X_1\) 与 \(X_2\) 独立。
- 多维正态分布的线性变换仍为正态分布:\(A\pmb{X}+\pmb{b}\sim N(A\pmb{\mu}+\pmb{b}, A^T\Sigma A)\)
- 实际上算这类题时直接算要求的随机变量的期望和方差然后写进 \(N\) 里就行。
- 随机变量的特征函数:\(\varphi_X(t) = Ee^{itX}\),特征函数可以唯一确定分布函数。
- 特征函数的常用性质:
- \(\varphi_{aX}(t) =\varphi_X(at)\)
- 若 \(X,Y\) 独立,则 \(\varphi_{X+Y}(t) = \varphi_X(t)\varphi_Y(t)\)。特别地,若 \(X_1,\dots,X_n\) 独立同分布,则 \(\varphi_{\sum_{i=1}^n X_i}(t) = \varphi_{X_1}(t)^n\)。
- \(EX^k = i^{-k}\varphi^{(k)}(0)\)
- 常见分布的特征函数
- 两点(0,1)分布 \(pe^{it}+q\)
- 二项分布 \((pe^{it}+q)^n\)
- 泊松分布 \(e^{\lambda(e^{it}-1)}\)
- 正态分布 \(e^{i\mu t - \frac {\sigma^2t^2}2}\)
- 几何分布 \(\dfrac{pe^{it}}{1-qe^{it}}\)
- 均匀分布 \(\dfrac{e^{itb}-e^{ita}}{it(b-a)}\)
- 指数分布 \(\dfrac{\lambda}{\lambda-it}\)
- \(\Gamma\) 分布 \((\dfrac{\lambda}{\lambda-it})^\alpha\)
第四章
-
依分布收敛:记作 \(X_n\xrightarrow d X\)。称 \(X_n\) 依分布收敛于 \(X\) 如果 \(\lim_{n\rightarrow \infty} F_{X_n}(x) = F_X(x)\)(逐点收敛即可)
-
中心极限定理:若 \(X_1,\dots,X_n\) 独立同分布,且 \(E(X_i)=\mu < +\infty, Var(X_i)=\sigma^2 < +\infty\),则
\[S_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sqrt n\sigma} \]满足 \(S_n \xrightarrow d N(0,1)\)。
- 中心极限定理常用于估计大量独立同分布变量之和小于(大于)某个给定值的概率。(需要查 \(\Phi\) 表)
-
若 \(\varphi_{X_n}\rightarrow \varphi_X\),则 \(X_n\xrightarrow d X\)。
-
依概率收敛:记作 \(X_n\xrightarrow P X\)。称 \(X_n\) 依概率收敛于 \(X\) 如果对于任意 \(\epsilon\) 均有 \(\lim_{n\rightarrow \infty} P(|X_n-X|>\epsilon)=0\)。
-
均方收敛:记作 \(X_n\xrightarrow {L^2} X\)。称 \(X_n\) 均方收敛于 \(X\) 如果 \(\lim_{n\rightarrow \infty} Var(X_n-X)=0\)。
-
若 \(X_n \xrightarrow d c\),\(c\) 为常数,则 \(X_n\xrightarrow P c\)。
-
切比雪夫不等式:\(P(|X_n-X|>\epsilon)\leq \dfrac{Var(X_n-X)}{\epsilon^2}\)。因此均方收敛→依概率收敛。