技术学习|CDA level I 描述性统计分析(常用的数据分布)

推断性统计分析方法的基础理论——常用的分布(两点分布、二项分布、正态分布[含标准正态分布]、χ2分布、t分布、F分布。

随机试验:结果不确定的实验,例如,进行一次抛硬币实验,结果是不确定的。对于随机试验的结果,称为随机事件。用于表示随机事件的变量称为随机变量,若随机变量的取值可一一列举,则称为离散型随机变量;若不可一一列举,则称为连续性随机变量。对于多个随机事件,若其结果互不影响,则称其相互独立。

概率(Probability):用于描述随机事件发生的可能性的大小,常用符号P表示,如事件X的概率表示为P(X)。概率的取值范围为[0,1],若随机事件是必然事件,则其概率为0,若是不可能事件,则其概率为0。

离散型随机变量X的n个取值为xi(i=1,2,…,n),对应的概率为pi;连续型随机变量X的取值为x,x∈(a,b),对应的概率为f(x)。

期望(Expect):也称平均数、均值,常用于研究和概率相关的问题中,是随机变量的重要特征值,博士随机取值的集中趋势。期望的计算方法如下:①对于离散型随机变量,期望=随机变量的取值与其对应概率的乘积,再求和,即期望E(X)=∑xipi;②对于连续型随机变量,期望=随机变量的取值与其对应概率密度的乘积,再求积分,即期望E(X)=∫(a-b)xf(x)dx。
离散型随机变量 E ( x ) = ∑ x i p i ; 连续型随机变量 E ( x ) = ∫ b a x f ( x ) d x 离散型随机变量E(x)=\sum x_ip_i;连续型随机变量E(x)=\int_b^axf(x)dx 离散型随机变量E(x)=xipi;连续型随机变量E(x)=baxf(x)dx
方差(Variance):是随机变量的另一个重要特征值,表示随机事件取值的离散程度。在概率相关的问题中,方差的计算方法如下:①对于离散型随机变量,方差=随机变量的取值与其期望离差的平方的期望,即方差Var(X)=E[xi-E(x)]2;②对于连续型随机变量,方差=随机变量的取值与其期望离差的平方的期望,即方差Var(X)=E[x-E(X)]2。此外,不管是离散型随机变量还是连续型随机变量,其方差也可以通过公式Var(X)=E(X2)-[E(X)]2来计算。
离散型随机变量 V a r ( X ) = E [ x i − E ( X ) ] 2 ; 连续型随机变量 V a r ( X ) = E [ x − E ( X ) ] 2 ; 公式 V a r ( X ) = E ( X 2 ) − [ E ( X ) ] 2 离散型随机变量Var(X)=E[x_i-E(X)]^2;连续型随机变量Var(X)=E[x-E(X)]^2;公式Var(X)=E(X^2)-[E(X)]^2 离散型随机变量Var(X)=E[xiE(X)]2;连续型随机变量Var(X)=E[xE(X)]2;公式Var(X)=E(X2)[E(X)]2
一、两点分布与两项分布

在推断性统计分析方法中,总体比例是需要进行推断的重要参数,总体比例的推断需要用到两点分布和二项分布。

1、两点分布

两点分布是指只有两个结果的随机事件服从的分布,如抛硬币结果,满意情况。对于有多个结果的随机事件,可以通过构建对立事件来得到两点分布(如统计学专业and非统计学专业)。即可以借用"非"、“不”、“其他"等词来构造对立事件,对于两点分布的两个结果,在一次实验中,有且仅有一个结果发生,两个结果"非此即彼”。

用X表示需要研究的随机事件,其中X=1表示需要研究的结果,概率为p;X=0表示结果的对立面,概率为1-p。

两点分布用符号表示为X~B(1,p)
期望 E ( X ) = p ; 方差 V a r ( X ) = p ( 1 − p ) 期望E(X)=p;方差Var(X)=p(1-p) 期望E(X)=p;方差Var(X)=p(1p)
2、二项分布

二项分布也称伯努利分布,将两点分布的实验独立重复进行多次,其结果就服从二项分布。设实验次数为n,两点分布中X=1的概率为p,则**二项分布可以记作XB(n,p)**,其中B指伯努利实验(伯努利提出的一种独立重复只有两个结果的实验)。故两点分布可以看作二项分布的特殊情况,可以看作只有一次实验的二项分布,故两点分布可以用符号记作XB(1,p)。

若两点分布中X=1的概率为p,X=0的概率为1-p,则在二项分布中,随机变量X有n+1个可能得取值结果:X=0到X=n
概率 P ( X = k ) = C n k p k ( 1 − p ) n − k ; 期望 E ( X ) = n p ; 方差 V a r ( X ) = n p ( 1 − p ) 概率P(X=k)=C_n^kp^k(1-p)^{n-k};\quad 期望E(X)=np;\quad 方差Var(X)=np(1-p) 概率P(X=k)=Cnkpk(1p)nk;期望E(X)=np;方差Var(X)=np(1p)
两点分布和二项分布的应用:在比例的研究中,比例实际上是服从二项分布的。以估计全校男生比例为例,估计全校男生的比例需要全校抽取100个人进行调查,抽到的每个人要不是男生,要不就是女生,即每个人的性别均服从两点分布,故独立重复100次,抽到100个人,这100人中男生的比例就是二项分布。

二、正态分布与标准正态分布

1、正态分布

正态分布,也称常态分布、高斯分布。最早是在二项分布的渐近公式中得到,后由高斯在研究测量误差时,推到得到其概率密度函数公式。

在数据分析中,如不确定数据的分布形态,常假定数据服从正态分布。

正态分布是一个连续型分布、设随机变量X服从正态分布,其期望为μ,方差为σ2,则其概率密度函数f(x)为:
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty f(x)=σ2π 1e2σ2(xμ)2,<x<+
在这里插入图片描述
X服从正态分布,记作X~N(μ,σ2)

性质:①概率密度函数在x轴上方,即f(x)>0;②正态曲线的最高点对应的x值为期望μ,它也是分布的中位数和众数;③正态分布是一个分布族,每个特定正态分布都通过期望μ和方差σ2来区分;期望μ决定曲线最高点的位置,方差σ2决定曲线的平缓程度,即宽度;④曲线f(x)相对于期望μ对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交;⑤正态曲线下的总面积(概率)等于1

正态曲线下某两点之间的面积(概率),如P(a<X<b),可以使用分布函数来计算。

正态分布的分布函数F(x)表示在正态分布N(μ,σ2),曲线中,X=x左侧的面积(概率),计算公式如下
F ( x ) = P ( X ≤ x ) = ∫ − ∞ x f ( t ) d t = ∫ − ∞ x 1 σ 2 π e − ( t − μ ) 2 2 σ 2 d t F(x)=P(X\leq x)=\int^x_{-\infty}f(t)dt=\int^x_{-\infty}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(t-\mu)^2}{2\sigma^2}}dt F(x)=P(Xx)=xf(t)dt=xσ2π 1e2σ2(tμ)2dt
正态分布的概率密度函数和分布函数

在这里插入图片描述

2、标准正态分布

标准正态分布是一种重要的特殊分布,常用一些特定的表示符号来表示其概率密度函数和分布函数。标准正态分布的概率密度函数通常用符号φ(x)表示,分布函数用Φ(x)表示,普通正态分布的概率密度函数通常用f(x)表示,分布函数用F(x)表示。

标准正态分布是正态分布中最简化的正态分布,取正态分布中的期望μ=0,方差σ2=1,得到标准正态分布的概率密度函数φ(x)为
ϕ ( x ) = 1 2 π e − x 2 2 , − ∞ < x < + ∞ \phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},-\infty<x<+\infty ϕ(x)=2π 1e2x2,<x<+
记作X~N(0,1)

标准正态分布的函数和图像与普通正态分布有相似的性质,不同的是:①标准正态曲线的最高点对应的x值在期望0处,即标准正态分布关于x=0,也就是y轴对称;②标准正态分布是唯一的、确定的、其对称轴是确定的,宽度也是确定的。

在这里插入图片描述

Φ ( x ) = P ( X ≤ x ) = ∫ − ∞ x ϕ ( t ) d t = ∫ − ∞ x 1 2 π e − t 2 2 d t \Phi(x)=P(X\leq x)=\int^x_{-\infty}\phi(t)dt=\int^x_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt Φ(x)=P(Xx)=xϕ(t)dt=x2π 1e2t2dt
标准正态分布的分布函数里面没有了μ和σ,因为μ为0,σ为1。标准正态分布的分布函数图是确定的。

P ( X ≤ x ) = Φ ( x ) P ( x 1 < X ≤ x 2 ) = Φ ( x 2 ) − Φ ( x 1 ) P ( X > x 1 ) = 1 − P ( X ≤ x 1 ) = 1 − Φ ( x 1 ) P ( X < − x 1 ) = P ( X > x 1 ) = 1 − P ( X ≤ x 1 ) = 1 − Φ ( x 1 ) P ( ∣ X ∣ < x i ) = Φ ( x i ) − Φ ( − x i ) P(X\leq x)=\Phi(x)\\P(x_1<X\leq x_2)=\Phi(x_2)-\Phi(x_1)\\P(X>x_1)=1-P(X\leq x_1)=1-\Phi(x_1)\\P(X<-x_1)=P(X> x_1)=1-P(X\leq x_1)=1-\Phi(x_1)\\P(|X|<x_i)=\Phi(x_i)-\Phi(-x_i) P(Xx)=Φ(x)P(x1<Xx2)=Φ(x2)Φ(x1)P(X>x1)=1P(Xx1)=1Φ(x1)P(X<x1)=P(X>x1)=1P(Xx1)=1Φ(x1)P(X<xi)=Φ(xi)Φ(xi)
普通正态分布转变为标准正态分布:对于任何普通正态分布N(μ,σ2),若XN(μ,σ<sup>2</sup>),则Z=(X-μ)/σN(0,1),将其转换成标准正态分布(这里的Z表示经过标准化后,服从正态分布的随机变量。
如 X ∽ N ( 1 , 4 ) , 则有 P ( X ≤ 2.16 ) = P ( X − 1 2 ≤ 2.16 2 ) = P ( Z ≤ 0.58 ) = Φ ( 0.58 ) = 0.7190 如X\backsim N(1,4),则有P(X\leq2.16)=P(\frac{X-1}{2}\leq \frac{2.16}{2})=P(Z\leq0.58)=\Phi(0.58)=0.7190 XN(1,4),则有P(X2.16)=P(2X122.16)=P(Z0.58)=Φ(0.58)=0.7190
若X~N(μ,σ2),则有
P ( μ − k σ < X < μ + σ ) = P ( − k < X − μ σ < k ) = P ( − k < Z < k ) = 2 Φ ( k ) − 1 若 k = 1 , 则有 P ( μ − σ < X < μ + σ ) = 2 Φ ( 1 ) − 1 = 0.6826 ; 若 k = 2 , 则有 P ( μ − 2 σ < X < μ + 2 σ ) = 2 Φ ( 2 ) − 1 = 0.9544 ; 若 k = 3 , 则有 P ( μ − 3 σ < X < μ + 3 σ ) = 2 Φ ( 3 ) − 1 = 0.9974 ; P(\mu-k\sigma<X<\mu+\sigma)=P(-k<\frac{X-\mu}{\sigma}<k)=P(-k<Z<k)=2\Phi(k)-1\\若k=1,则有P(\mu-\sigma<X<\mu+\sigma)=2\Phi(1)-1=0.6826;\\若k=2,则有P(\mu-2\sigma<X<\mu+2\sigma)=2\Phi(2)-1=0.9544;\\若k=3,则有P(\mu-3\sigma<X<\mu+3\sigma)=2\Phi(3)-1=0.9974; P(μ<X<μ+σ)=P(k<σXμ<k)=P(k<Z<k)=(k)1k=1,则有P(μσ<X<μ+σ)=(1)1=0.6826;k=2,则有P(μ2σ<X<μ+2σ)=(2)1=0.9544;k=3,则有P(μ3σ<X<μ+3σ)=(3)1=0.9974;
常用均值加减3个标准差作为异常值的判断,因为99.74%的数据是在这个范围内的,只有极少数据落在这个范围内,故可以判断为异常值。

三、 χ 2 \chi^2 χ2分布

χ 2 \chi^2 χ2分布(卡方分布)。可以通过标准正态分布来定义 χ 2 \chi^2 χ2分布:若随机变量X1,X2,……,Xi相互独立,且都服从标准正态分布N(0,1)。则它们的平方和 Y = ∑ i = 1 n X i 2 Y=\sum^n_{i=1}X_i^2 Y=i=1nXi2都服从自由度为n的 χ 2 \chi^2 χ2分布,记作Y~ χ 2 ( n ) \chi^2(n) χ2(n) χ 2 \chi^2 χ2分布的概率密度分布图如下。

在这里插入图片描述

性质:

  • 由于 χ 2 \chi^2 χ2分布是标准正态分布的平方和,故其变量值始终为正。

  • 分布的形状取决于自由度的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称,当 n → ∞ n \to \infty n时, χ 2 \chi^2 χ2分布的极限分布是正态分布。

  • 可以证明得到, χ 2 \chi^2 χ2分布的期望 E ( χ 2 ) = n E(\chi^2)=n E(χ2)=n,方差 V a r ( χ 2 ) = 2 n Var(\chi^2)=2n Var(χ2)=2n,n是自由度。

  • 可加性:若U和V是两个相互独立的 χ 2 \chi^2 χ2分布, U ∽ χ 2 ( n 1 ) U \backsim \chi^2(n_1) Uχ2(n1) V ∽ χ 2 ( n 2 ) V \backsim \chi^2(n_2) Vχ2(n2),则U+V服从自由度为 n 1 + n 2 n_1+n_2 n1+n2 χ 2 \chi^2 χ2分布。

  • X ∽ N ( 0 , 1 ) X \backsim N(0,1) XN(0,1),则 χ 2 ∽ χ 2 ( 1 ) \chi^2 \backsim \chi^2(1) χ2χ2(1)

  • 若总体为正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),则有 ( n − 1 ) s 2 σ 2 ∽ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2} \backsim \chi^2(n-1) σ2(n1)s2χ2(n1)

证明:若总体为正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),则有 ( n − 1 ) s 2 σ 2 ∽ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\backsim\chi^2(n-1) σ2(n1)s2χ2(n1)

证:因为 s 2 = ∑ ( x i − x ˉ ) 2 n − 1 s^2=\frac{\sum(x_i-\bar x)^2}{n-1} s2=n1(xixˉ)2,所以 ( n − 1 ) s 2 = ∑ ( x i − x ˉ ) 2 (n-1)s^2=\sum(x_i-\bar x)^2 (n1)s2=(xixˉ)2,所以 ( n − 1 ) s 2 σ 2 = ∑ ( x i − x ˉ ) 2 σ 2 = ∑ ( x i − x ˉ σ ) 2 \frac{(n-1)s^2}{\sigma^2}=\frac{\sum(x_i-\bar x)^2}{\sigma^2}=\sum ( \frac {x_i-\bar x}{\sigma} )^2 σ2(n1)s2=σ2(xixˉ)2=(σxixˉ)2。因为总体分布为正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),所以 x i − u σ ∽ N ( 0 , 1 ) \frac{x_i-u}{\sigma}\backsim N(0,1) σxiuN(0,1),则有 ∑ ( x i − μ σ 2 ) ∽ χ 2 ( n ) \sum(\frac{x_i-\mu}{\sigma}^2)\backsim \chi^2(n) (σxiμ2)χ2(n),用 x ˉ \bar x xˉ替换 μ \mu μ会损失一个自由度,故有 ∑ ( x i − x ˉ σ ) 2 ∽ χ 2 ( n − 1 ) \sum(\frac{x_i-\bar x}{\sigma})^2\backsim\chi^2(n-1) (σxixˉ)2χ2(n1),所以 ( n − 1 ) s 2 σ 2 ∽ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\backsim\chi^2(n-1) σ2(n1)s2χ2(n1)

χ 2 \chi^2 χ2分布是相互独立的标准正态分布的平方和,故常用于离差平方和的研究中,如方差的计算、方差的假设检验、列联分析等问题。

四、t分布

t分布也称为、学生氏分布,在研究小样本问题时,标准正态分布存在较大误差,用t分布结果更为精确。

通过标准正态分布和 χ 2 \chi^2 χ2分布来定义t分布:设 X ∽ N ( 0 , 1 ) , Y ∽ χ 2 ( n ) X \backsim N(0,1),Y \backsim \chi^2(n) XN(0,1),Yχ2(n),且X与Y相互独立,则 t = X { Y n } ∽ t ( n ) t=\frac{X}{\sqrt\{\frac{Y}{n}\}}\backsim t(n) t={ nY}Xt(n)。其分布的概率密度分布图如下。

在这里插入图片描述

性质:

  • 当n>=2时,t分布的数学期望E(t)=0;,当n>=3时,t分布的方差 V a r ( t ) = n n − 2 Var(t)=\frac{n}{n-2} Var(t)=n2n,结合t分布和标准正态分布的形状,两者均关于y轴对称(期望均为0),但t分布的方差稍大于1,导致t分布比标准正态分布稍微宽一点,从而在对称轴出t分布的峰值稍微小一点。
  • 随着自由度n的增加,t分布的概率密度函数越来越接近标准正态分布的概率密度函数,在实际中,当n>=30时,t分布于标准正态分布非常接近。
  • 若总体为正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),且 x ˉ ∽ N ( μ , σ 2 n ) \bar x \backsim N(\mu,\frac{\sigma^2}{n}) xˉN(μ,nσ2),则有 x ˉ − μ s / n ∽ t ( n , 1 ) \frac{\bar x-\mu}{s/ \sqrt n}\backsim t(n,1) s/n xˉμt(n,1)

证明:因为 x ˉ ∽ N ( μ , σ 2 n ) \bar x \backsim N(\mu,\frac{\sigma^2}{n}) xˉN(μ,nσ2),所以KaTeX parse error: Undefined control sequence: \backsimN at position 34: …\sigma/\sqrt n}\̲b̲a̲c̲k̲s̲i̲m̲N̲(0,1),故 x ˉ − μ s / n = ( x ˉ − μ ) ( σ / n ) ( s / n ) σ / n = N ( 0 , 1 ) s / σ = N ( 0 , 1 ) s 2 / σ 2 = N ( 0 , 1 ) ( n − 1 ) s 2 / σ 2 n − 1 = N ( 0 , 1 ) χ 2 ( n − 1 ) n − 1 ∽ t ( n − 1 ) \frac{\bar x-\mu}{s/\sqrt n}=\frac{\frac{(\bar x-\mu)}{(\sigma/\sqrt n)}}{\frac{(s/\sqrt n)}{\sigma/\sqrt n}}=\frac{N(0,1)}{s/\sigma}=\frac{N(0,1)}{\sqrt{s^2/\sigma^2}}=\frac{N(0,1)}{\sqrt{\frac{(n-1)s^2/\sigma^2}{n-1}}}=\frac{N(0,1)}{\sqrt{\frac{\chi^2(n-1)}{n-1}}}\backsim t(n-1) s/n xˉμ=σ/n (s/n )(σ/n )(xˉμ)=s/σN(0,1)=s2/σ2 N(0,1)=n1(n1)s2/σ2 N(0,1)=n1χ2(n1) N(0,1)t(n1)

t分布的提出为统计学补充和完善了小样本理论,在实际数据分析中,小样本问题的研究需要用到t分布,且由于在大样本情况下,t分布非常接近标准正态分布,在很多学科中,t分布集合替代了标准正态分布(小样本需要用t分布,大样本也可以用t分布)

五、F分布

可以通过 χ 2 \chi^2 χ2分布来定义F分布:设 U ∽ χ 2 ( m ) , V ∽ χ 2 ( n ) U \backsim\chi^2(m),V \backsim \chi^2(n) Uχ2(m),Vχ2(n),且U和V相互独立,则 F = U / m V / n ∽ F ( m , n ) F=\frac{U/m}{V/n} \backsim F(m,n) F=V/nU/mF(m,n)

F分布的概率密度分布图如下。
在这里插入图片描述

性质:

  • F分布的期望 E ( F ) = n n − 2 , n > 2 ; 方差 V a r ( F ) = 2 n ( m + n − 2 ) m ( n − 2 ) ( n − 4 ) , n > 4 E(F)=\frac{n}{n-2},n>2;方差Var(F)=\frac{2n(m+n-2)}{m(n-2)(n-4)},n>4 E(F)=n2n,n>2;方差Var(F)=m(n2)(n4)2n(m+n2),n>4
  • F分布的p分位数 F p ( m , n ) = 1 F 1 − p ( n , m ) F_p(m,n)=\frac{1}{F_{1-p}(n,m)} Fp(m,n)=F1p(n,m)1
  • t ∽ t ( n ) , 则 t 2 ∽ F ( 1 , n ) t\backsim t(n),则t^2 \backsim F(1,n) tt(n),t2F(1,n)

证明:已知 t ∽ t ( n ) t \backsim t(n) tt(n),所以 t = N ( 0 , 1 ) χ 2 ( n ) / n t=\frac{N(0,1)}{\sqrt{\chi^2(n)/n}} t=χ2(n)/n N(0,1),故 t 2 = [ N ( 0 , 1 ) ] 2 χ 2 ( n ) / n = χ 2 ( 1 ) χ 2 ( n ) / n = χ 2 ( 1 ) / 1 χ 2 ( n ) / n = F ( 1 , n ) t^2=\frac{[N(0,1)]^2}{\chi^2(n)/n}=\frac{\chi^2(1)}{\chi^2(n)/n}=\frac{\chi^2(1)/1}{\chi^2(n)/n}=F(1,n) t2=χ2(n)/n[N(0,1)]2=χ2(n)/nχ2(1)=χ2(n)/nχ2(1)/1=F(1,n)

  • 同一正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的两个独立样本方差分别为 s 1 2 = ∑ i = 1 n 1 ( x i − x ˉ ) 2 n 1 − 1 . s 2 2 = ∑ i = 1 n 2 ( x i − x ˉ ) 2 n 2 − 1 , 则有 s 1 2 s 2 2 ∽ F ( n 1 − 1 , n 2 − 1 ) s_1^2=\frac{\sum_{i=1}^{n_1}(x_i-\bar x)^2}{n_1-1}.s_2^2=\frac{\sum_{i=1}^{n_2}(x_i-\bar x)^2}{n_2-1},则有\frac{s_1^2}{s_2^2}\backsim F(n_1-1,n_2-1) s12=n11i=1n1(xixˉ)2.s22=n21i=1n2(xixˉ)2,则有s22s12F(n11,n21)

证明:因为总体为正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),所以 ( n 1 − 1 ) s 1 2 σ 2 ∽ χ 2 ( n 1 − 1 ) , ( n 2 − 1 ) s 2 2 σ 2 ∽ χ 2 ( n 2 − 1 ) , 故 s 1 2 s 2 2 = ( n 1 − 1 ) s 1 2 σ 2 / ( n 1 − 1 ) ( n 2 − 1 ) s 2 2 σ 2 / ( n 2 − 1 ) = χ 2 ( n 1 − 1 ) / ( n 1 − 1 ) χ 2 ( n 2 − 1 ) / ( n 2 − 1 ) ∽ F ( n 1 − 1 , n 2 − 1 ) \frac{(n_1-1)s_1^2}{\sigma^2}\backsim \chi^2(n_1-1),\frac{(n_2-1)s^2_2}{\sigma^2}\backsim \chi^2(n_2-1),故\frac{s_1^2}{s_2^2}=\frac{\frac{(n_1-1)s_1^2}{\sigma^2}/(n_1-1)}{\frac{(n_2-1)s^2_2}{\sigma^2}/(n_2-1)}=\frac{\chi^2(n_1-1)/(n_1-1)}{\chi^2(n_2-1)/(n_2-1)}\backsim F(n_1-1,n_2-1) σ2(n11)s12χ2(n11),σ2(n21)s22χ2(n21),s22s12=σ2(n21)s22/(n21)σ2(n11)s12/(n11)=χ2(n21)/(n21)χ2(n11)/(n11)F(n11,n21)

F分布广泛应用于离差平方和的比较问题中,在比较中采用除法,结果会服从F分布。在方差分析、回归方程的显著性检验中都应用F分布。

六、分位点(是一个点)

分布函数表示了分布中某个点左侧的面积(概率),与此同时,用右侧面积来定义(分位点)

以标准正态分布为例,其分位点记为 Z α Z_{\alpha} Zα Z α Z_{\alpha} Zα表示在标准正态分布N(0,1)中,右侧分布(概率)为α的点。

在这里插入图片描述

分位点 Z α Z_{\alpha} Zα与分布函数 Φ ( x ) \Phi(x) Φ(x)不一样,前者根据右侧面积(概率)来确定X的值,后者根据X的值来确定其左侧面积(概率)。两者已知条件和目标刚好相反,故可根据分布函数表来确定求解分位点 Z α Z_{\alpha} Zα

已知 Z α Z_{\alpha} Zα右侧面积为 α \alpha α,求解 Z α Z_{\alpha} Zα:① Z α Z_{\alpha} Zα右侧面积为 α \alpha α,则左侧面积为 1 − α 1-\alpha 1α;②从表中找面积 1 − α 1-\alpha 1α,则对应对应的最外侧列十行的值为 Z α Z_{\alpha} Zα

同理有 t α 、 χ α 2 、 F α t_{\alpha}、\chi_{\alpha}^2、F_{\alpha} tαχα2Fα分位点实际上是分布中的临界值,在参数估计和假设检验等方法中非常常用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/318810.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EM算法公式详细推导

EM算法是什么&#xff1f; EM算法是一种迭代算法&#xff0c;用于含隐变量概率模型参数的极大似然估计&#xff0c;或极大后验概率估计。EM算法由两步组成&#xff1a;E步&#xff0c;求期望&#xff1b;M步&#xff1a;求极大。EM算法的优点是简单性和普适性。 符号说明&…

关于系统设计的一些思考

0.前言 当我们站在系统设计的起点&#xff0c;面对一个新的需求&#xff0c;我们该如何开始呢&#xff1f;这是许多处于系统分析与设计领域的新手常常思考的问题。有些人可能会误以为&#xff0c;只要掌握了诸如面向对象、统一建模语言、设计模式、微服务、Serverless、Servic…

Postman版IDEA插件!免费!

Postman是大家最常用的API调试工具&#xff0c;那么有没有一种方法可以不用手动写入接口到Postman&#xff0c;即可进行接口调试操作&#xff1f;今天给大家推荐一款IDEA插件&#xff1a;Apipost Helper&#xff0c;写完代码就可以调试接口并一键生成接口文档&#xff01;而且还…

CMU15-445-Spring-2023-Project #0 - C++ Primer

前置任务。 Task #1 - Copy-On-Write Trie Copy-on-write (COW) Trie 在进行修改时&#xff0c;不会立即复制整个数据结构。相反&#xff0c;它会在需要修改的节点被多个引用的时候才进行复制。当要对某个节点进行写操作&#xff08;添加子节点或者继续向下insert&#xff09…

花了一小时,拿python手搓了一个考研背单词软件

听说没有好用的电脑端背单词软件&#xff1f;只好麻烦一下&#xff0c;花了一小时&#xff0c;拿python手搓了一个考研背单词软件。 代码已经开源在我的github上&#xff0c;欢迎大家STAR&#xff01; 其中&#xff0c;数据是存放在sqlite中&#xff0c;形近词跳转是根据jaro …

OpenHarmony源码转换器—多线程特性转换

本文讨论了如何将多线程的 Java 代码转换为 OpenHarmony ArkTS 代码​ 一、简介 Java 内存共享模型 以下示例伪代码和示意图展示了如何使用内存共享模型解决生产者消费者问题。 生产者消费者与共享内存间交互示意图 为了避免不同生产者或消费者同时访问一块共享内存的容器时…

【小程序开发】解决 HBuilder X “本项目类型无法运行到小程序模拟器”

今天遇到一个奇怪的问题&#xff0c;从git导入的微信小程序项目准备运行到小程序模拟器时菜单没有展示出模拟器工具列表&#xff0c;而是展示了这么一个子菜单“本项目类型无法运行到小程序模拟器&#xff0c;点击看详情”。如下图&#xff1a; 点击是跳转到一个web链接。 我通…

【零基础入门TypeScript】判断条件和循环

目录 定环 无限循环 示例&#xff1a;while 与 do..while 中断语句 句法 流程图 例子 继续语句 句法 流程图 例子 输出 无限循环 语法&#xff1a;使用 for 循环的无限循环 示例&#xff1a;使用 for 循环的无限循环 语法&#xff1a;使用 while 循环进行无限循…

使用生成式AI查询大型BI表

在拥有大量表格形式数据的组织中&#xff0c;数据分析师的工作是通过提取、转换和围绕数据构建故事来理解这些数据。 分析师访问数据的主要工具是 SQL。 鉴于大型语言模型 (LLM) 令人印象深刻的功能&#xff0c;我们很自然地想知道人工智能是否可以帮助我们将信息需求转化为格式…

优雅地展示20w单细胞热图|非Doheatmap 超大数据集 细胞数太多

单细胞超大数据集的热图怎么画&#xff1f;昨天刚做完展示20万单细胞的热图要这么画吗&#xff1f; 今天就有人发消息问我为啥他画出来的热图有问题。 问题起源 昨天分享完 20万单细胞的热图要这么画吗&#xff1f;&#xff0c;就有人问为啥他的数据会出错。我们先来看下他的…

sql | sql 语句中的case when

通过case when 进行更细致的分类 ################################################## ####### 参考 ####### 如果没有添加case when 最终的sql 语句 就只是查询表中的name 而且添加 case when [age] > 18 then 1 else 0 end as [AgeType] 记就表示找表中的两个字段 一个是…

智能编程助手!华为云CodeArts Snap免费公测:基于盘古研发大模型

近日&#xff0c;华为云CodeArts Snap正式开启公测。 这是一款基于华为云研发大模型的智能化编程助手&#xff0c;旨在为开发者提供高效且智能的编程体验&#xff0c;提升研发人员的单兵作战能力。 该服务公测期间免费&#xff0c;不向用户收取任何费用&#xff0c;商用后&am…