技术学习|CDA level I 描述性统计分析（常用的数据分布）-编程知识

推断性统计分析方法的基础理论——常用的分布（两点分布、二项分布、正态分布[含标准正态分布]、χ²分布、t分布、F分布。

随机试验：结果不确定的实验，例如，进行一次抛硬币实验，结果是不确定的。对于随机试验的结果，称为随机事件。用于表示随机事件的变量称为随机变量，若随机变量的取值可一一列举，则称为离散型随机变量；若不可一一列举，则称为连续性随机变量。对于多个随机事件，若其结果互不影响，则称其相互独立。

概率(Probability)：用于描述随机事件发生的可能性的大小，常用符号P表示，如事件X的概率表示为P(X)。概率的取值范围为[0,1]，若随机事件是必然事件，则其概率为0，若是不可能事件，则其概率为0。

离散型随机变量X的n个取值为x_i(i=1,2,…,n)，对应的概率为p_i；连续型随机变量X的取值为x，x∈(a,b)，对应的概率为f(x)。

期望(Expect)：也称平均数、均值，常用于研究和概率相关的问题中，是随机变量的重要特征值，博士随机取值的集中趋势。期望的计算方法如下：①对于离散型随机变量，期望=随机变量的取值与其对应概率的乘积，再求和，即期望E(X)=∑x_ip_i；②对于连续型随机变量，期望=随机变量的取值与其对应概率密度的乘积，再求积分，即期望E(X)=∫(a-b)xf(x)dx。
$离散型随机变量E(x)=\sum x_ip_i;连续型随机变量E(x)=\int_b^axf(x)dx$
方差(Variance)：是随机变量的另一个重要特征值，表示随机事件取值的离散程度。在概率相关的问题中，方差的计算方法如下：①对于离散型随机变量，方差=随机变量的取值与其期望离差的平方的期望，即方差Var(X)=E[x_i-E(x)]²；②对于连续型随机变量，方差=随机变量的取值与其期望离差的平方的期望，即方差Var(X)=E[x-E(X)]²。此外，不管是离散型随机变量还是连续型随机变量，其方差也可以通过公式Var(X)=E(X²)-[E(X)]²来计算。
$离散型随机变量Var(X)=E[x_i-E(X)]^2;连续型随机变量Var(X)=E[x-E(X)]^2;公式Var(X)=E(X^2)-[E(X)]^2$
一、两点分布与两项分布

在推断性统计分析方法中，总体比例是需要进行推断的重要参数，总体比例的推断需要用到两点分布和二项分布。

1、两点分布

两点分布是指只有两个结果的随机事件服从的分布，如抛硬币结果，满意情况。对于有多个结果的随机事件，可以通过构建对立事件来得到两点分布（如统计学专业and非统计学专业）。即可以借用"非"、“不”、“其他"等词来构造对立事件，对于两点分布的两个结果，在一次实验中，有且仅有一个结果发生，两个结果"非此即彼”。

用X表示需要研究的随机事件，其中X=1表示需要研究的结果，概率为p；X=0表示结果的对立面，概率为1-p。

两点分布用符号表示为X~B(1,p)
$期望 E (X) = p; 方差 Va r (X) = p (1 - p)$
2、二项分布

二项分布也称伯努利分布，将两点分布的实验独立重复进行多次，其结果就服从二项分布。设实验次数为n，两点分布中X=1的概率为p，则**二项分布可以记作X_{B(n,p)**，其中B指伯努利实验(伯努利提出的一种独立重复只有两个结果的实验)。故两点分布可以看作二项分布的特殊情况，可以看作只有一次实验的二项分布，故两点分布可以用符号记作X}B(1,p)。

若两点分布中X=1的概率为p，X=0的概率为1-p，则在二项分布中，随机变量X有n+1个可能得取值结果：X=0到X=n
$概率P(X=k)=C_n^kp^k(1-p)^{n-k};\quad 期望E(X)=np;\quad 方差Var(X)=np(1-p)$
两点分布和二项分布的应用：在比例的研究中，比例实际上是服从二项分布的。以估计全校男生比例为例，估计全校男生的比例需要全校抽取100个人进行调查，抽到的每个人要不是男生，要不就是女生，即每个人的性别均服从两点分布，故独立重复100次，抽到100个人，这100人中男生的比例就是二项分布。

二、正态分布与标准正态分布

1、正态分布

正态分布，也称常态分布、高斯分布。最早是在二项分布的渐近公式中得到，后由高斯在研究测量误差时，推到得到其概率密度函数公式。

在数据分析中，如不确定数据的分布形态，常假定数据服从正态分布。

正态分布是一个连续型分布、设随机变量X服从正态分布，其期望为μ，方差为σ²，则其概率密度函数f(x)为：
$f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty$
在这里插入图片描述
X服从正态分布，记作X~N(μ,σ²)

性质：①概率密度函数在x轴上方，即f(x)>0；②正态曲线的最高点对应的x值为期望μ，它也是分布的中位数和众数；③正态分布是一个分布族，每个特定正态分布都通过期望μ和方差σ²来区分；期望μ决定曲线最高点的位置，方差σ2决定曲线的平缓程度，即宽度；④曲线f(x)相对于期望μ对称，尾端向两个方向无限延伸，且理论上永远不会与横轴相交；⑤正态曲线下的总面积(概率)等于1

正态曲线下某两点之间的面积（概率），如P(a<X<b)，可以使用分布函数来计算。

正态分布的分布函数F(x)表示在正态分布N(μ,σ²)，曲线中，X=x左侧的面积（概率），计算公式如下
$F(x)=P(X\leq x)=\int^x_{-\infty}f(t)dt=\int^x_{-\infty}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(t-\mu)^2}{2\sigma^2}}dt$
正态分布的概率密度函数和分布函数

在这里插入图片描述

2、标准正态分布

标准正态分布是一种重要的特殊分布，常用一些特定的表示符号来表示其概率密度函数和分布函数。标准正态分布的概率密度函数通常用符号φ(x)表示，分布函数用Φ(x)表示，普通正态分布的概率密度函数通常用f(x)表示，分布函数用F(x)表示。

标准正态分布是正态分布中最简化的正态分布，取正态分布中的期望μ=0，方差σ²=1，得到标准正态分布的概率密度函数φ(x)为
$\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},-\infty<x<+\infty$
记作X~N(0,1)

标准正态分布的函数和图像与普通正态分布有相似的性质，不同的是：①标准正态曲线的最高点对应的x值在期望0处，即标准正态分布关于x=0，也就是y轴对称；②标准正态分布是唯一的、确定的、其对称轴是确定的，宽度也是确定的。

在这里插入图片描述

$\Phi(x)=P(X\leq x)=\int^x_{-\infty}\phi(t)dt=\int^x_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt$
标准正态分布的分布函数里面没有了μ和σ，因为μ为0，σ为1。标准正态分布的分布函数图是确定的。

$P(X\leq x)=\Phi(x)\\P(x_1<X\leq x_2)=\Phi(x_2)-\Phi(x_1)\\P(X>x_1)=1-P(X\leq x_1)=1-\Phi(x_1)\\P(X<-x_1)=P(X> x_1)=1-P(X\leq x_1)=1-\Phi(x_1)\\P(|X|<x_i)=\Phi(x_i)-\Phi(-x_i)$
普通正态分布转变为标准正态分布：对于任何普通正态分布N(μ，σ²)，若X_{N(μ，σ<sup>2</sup>)，则Z=(X-μ)/σ}N(0,1)，将其转换成标准正态分布（这里的Z表示经过标准化后，服从正态分布的随机变量。
$如X\backsim N(1,4),则有P(X\leq2.16)=P(\frac{X-1}{2}\leq \frac{2.16}{2})=P(Z\leq0.58)=\Phi(0.58)=0.7190$
若X~N(μ,σ²)，则有
$P(\mu-k\sigma<X<\mu+\sigma)=P(-k<\frac{X-\mu}{\sigma}<k)=P(-k<Z<k)=2\Phi(k)-1\\若k=1,则有P(\mu-\sigma<X<\mu+\sigma)=2\Phi(1)-1=0.6826;\\若k=2,则有P(\mu-2\sigma<X<\mu+2\sigma)=2\Phi(2)-1=0.9544;\\若k=3,则有P(\mu-3\sigma<X<\mu+3\sigma)=2\Phi(3)-1=0.9974;$
常用均值加减3个标准差作为异常值的判断，因为99.74%的数据是在这个范围内的，只有极少数据落在这个范围内，故可以判断为异常值。

三、 $\chi^2$ 分布

$\chi^2$ 分布（卡方分布）。可以通过标准正态分布来定义 $\chi^2$ 分布：若随机变量X₁，X₂，……，X_i相互独立，且都服从标准正态分布N(0,1)。则它们的平方和 $Y=\sum^n_{i=1}X_i^2$ 都服从自由度为n的 $\chi^2$ 分布，记作Y~ $\chi^2(n)$ 。 $\chi^2$ 分布的概率密度分布图如下。

在这里插入图片描述

性质：

由于 $\chi^2$ 分布是标准正态分布的平方和，故其变量值始终为正。
分布的形状取决于自由度的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称，当 $\to \infty$ 时， $\chi^2$ 分布的极限分布是正态分布。
可以证明得到， $\chi^2$ 分布的期望 $E(\chi^2)=n$ ，方差 $Var(\chi^2)=2n$ ，n是自由度。
可加性：若U和V是两个相互独立的 $\chi^2$ 分布， $\backsim \chi^2(n_1)$ ， $\backsim \chi^2(n_2)$ ，则U+V服从自由度为 $n_1+n_2$ 的 $\chi^2$ 分布。
若 $\backsim N(0,1)$ ，则 $\chi^2 \backsim \chi^2(1)$ 。
若总体为正态分布 $N(\mu,\sigma^2)$ ，则有 $\frac{(n-1)s^2}{\sigma^2} \backsim \chi^2(n-1)$ 。

证明：若总体为正态分布 $N(\mu,\sigma^2)$ ，则有 $\frac{(n-1)s^2}{\sigma^2}\backsim\chi^2(n-1)$ 。

证：因为 $s^2=\frac{\sum(x_i-\bar x)^2}{n-1}$ ，所以 $(n-1)s^2=\sum(x_i-\bar x)^2$ ，所以 $\frac{(n-1)s^2}{\sigma^2}=\frac{\sum(x_i-\bar x)^2}{\sigma^2}=\sum ( \frac {x_i-\bar x}{\sigma} )^2$ 。因为总体分布为正态分布 $N(\mu,\sigma^2)$ ，所以 $\frac{x_i-u}{\sigma}\backsim N(0,1)$ ，则有 $\sum(\frac{x_i-\mu}{\sigma}^2)\backsim \chi^2(n)$ ，用 $\bar x$ 替换 $\mu$ 会损失一个自由度，故有 $\sum(\frac{x_i-\bar x}{\sigma})^2\backsim\chi^2(n-1)$ ，所以 $\frac{(n-1)s^2}{\sigma^2}\backsim\chi^2(n-1)$ 。

$\chi^2$ 分布是相互独立的标准正态分布的平方和，故常用于离差平方和的研究中，如方差的计算、方差的假设检验、列联分析等问题。

四、t分布

t分布也称为、学生氏分布，在研究小样本问题时，标准正态分布存在较大误差，用t分布结果更为精确。

通过标准正态分布和 $\chi^2$ 分布来定义t分布：设 $\backsim N(0,1),Y \backsim \chi^2(n)$ ，且X与Y相互独立，则 $t=\frac{X}{\sqrt\{\frac{Y}{n}\}}\backsim t(n)$ 。其分布的概率密度分布图如下。

在这里插入图片描述

性质：

当n>=2时，t分布的数学期望E(t)=0；，当n>=3时，t分布的方差 $Var(t)=\frac{n}{n-2}$ ，结合t分布和标准正态分布的形状，两者均关于y轴对称（期望均为0），但t分布的方差稍大于1，导致t分布比标准正态分布稍微宽一点，从而在对称轴出t分布的峰值稍微小一点。
随着自由度n的增加，t分布的概率密度函数越来越接近标准正态分布的概率密度函数，在实际中，当n>=30时，t分布于标准正态分布非常接近。
若总体为正态分布 $N(\mu,\sigma^2)$ ，且 $\bar x \backsim N(\mu,\frac{\sigma^2}{n})$ ，则有 $\frac{\bar x-\mu}{s/ \sqrt n}\backsim t(n,1)$ 。

证明：因为 $\bar x \backsim N(\mu,\frac{\sigma^2}{n})$ ，所以 $KaTeX parse error: Undefined control sequence: \backsimN at position 34: …\sigma/\sqrt n}\̲b̲a̲c̲k̲s̲i̲m̲N̲(0,1)$ ，故 $\frac{\bar x-\mu}{s/\sqrt n}=\frac{\frac{(\bar x-\mu)}{(\sigma/\sqrt n)}}{\frac{(s/\sqrt n)}{\sigma/\sqrt n}}=\frac{N(0,1)}{s/\sigma}=\frac{N(0,1)}{\sqrt{s^2/\sigma^2}}=\frac{N(0,1)}{\sqrt{\frac{(n-1)s^2/\sigma^2}{n-1}}}=\frac{N(0,1)}{\sqrt{\frac{\chi^2(n-1)}{n-1}}}\backsim t(n-1)$ 。

t分布的提出为统计学补充和完善了小样本理论，在实际数据分析中，小样本问题的研究需要用到t分布，且由于在大样本情况下，t分布非常接近标准正态分布，在很多学科中，t分布集合替代了标准正态分布（小样本需要用t分布，大样本也可以用t分布）

五、F分布

可以通过 $\chi^2$ 分布来定义F分布：设 $\backsim\chi^2(m),V \backsim \chi^2(n)$ ，且U和V相互独立，则 $F=\frac{U/m}{V/n} \backsim F(m,n)$ 。

F分布的概率密度分布图如下。
在这里插入图片描述

性质：

F分布的期望 $E(F)=\frac{n}{n-2},n>2;方差Var(F)=\frac{2n(m+n-2)}{m(n-2)(n-4)},n>4$ 。
F分布的p分位数 $F_p(m,n)=\frac{1}{F_{1-p}(n,m)}$ 。
若 $t\backsim t(n),则t^2 \backsim F(1,n)$ 。

证明：已知 $\backsim t(n)$ ，所以 $t=\frac{N(0,1)}{\sqrt{\chi^2(n)/n}}$ ，故 $t^2=\frac{[N(0,1)]^2}{\chi^2(n)/n}=\frac{\chi^2(1)}{\chi^2(n)/n}=\frac{\chi^2(1)/1}{\chi^2(n)/n}=F(1,n)$ 。

同一正态分布 $N(\mu,\sigma^2)$ 的两个独立样本方差分别为 $s_1^2=\frac{\sum_{i=1}^{n_1}(x_i-\bar x)^2}{n_1-1}.s_2^2=\frac{\sum_{i=1}^{n_2}(x_i-\bar x)^2}{n_2-1},则有\frac{s_1^2}{s_2^2}\backsim F(n_1-1,n_2-1)$ 。

证明：因为总体为正态分布 $N(\mu,\sigma^2)$ ，所以 $\frac{(n_1-1)s_1^2}{\sigma^2}\backsim \chi^2(n_1-1),\frac{(n_2-1)s^2_2}{\sigma^2}\backsim \chi^2(n_2-1),故\frac{s_1^2}{s_2^2}=\frac{\frac{(n_1-1)s_1^2}{\sigma^2}/(n_1-1)}{\frac{(n_2-1)s^2_2}{\sigma^2}/(n_2-1)}=\frac{\chi^2(n_1-1)/(n_1-1)}{\chi^2(n_2-1)/(n_2-1)}\backsim F(n_1-1,n_2-1)$ 。