两均值比较R

news/2024/12/29 4:01:48/文章来源:https://www.cnblogs.com/redufa/p/18638314

1. 两个均值比较校验

1.1 两独立样本均值检验

1.1.1 检验理论依据

两样本均值差: \(\bar{x}_1-\bar{x}_2\)

两总体均值差: \(\mu_1 - \mu_2\)

则两样本均值差服从正态分布:

\[\overline{x}_1-\overline{x}_2\sim N(\mu_1-\mu_2,\sigma_{\overline{x}_1-\overline{x}_2}^2) \]

当两总体方差 \(\sigma^2_1\)\(\sigma^2_2\) 未知,而经验可知相等,则方差\(\sigma_{\bar{x}_1-\bar{x}_2}^2\)的理论估计为:

\[\sigma_{\bar{x}_1-\bar{x}_2}^2=\frac{S_p}{n_1}+\frac{S_p}{n_2} \]

其中合并的方差为\(S_p=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\)

当两总体方差 \(\sigma^2_1\)\(\sigma^2_2\) 未知,而不相等时,则方差\(\sigma_{\bar{x}_1-\bar{x}_2}^2\)的理论估计为:

\[\sigma_{\bar{x}_1-\bar{x}_2}^2=\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2} \]

其中,\(n_1\)\(n_2\)分别为两样本的样本量,\(S_1^2\)\(S_2^2\)分别为两样本的样本方差。

1.1.2 原假设和统计量

原假设:两总体均值之差为0,即总体均值无显著差异。

检验的统计量

\[z=\frac{\overline{x}_1-\overline{x}_2}{\sigma_{\overline{x}_1-\overline{x}_2}} \]

服从标准正态分布. (均值为0,被方差归一化)

由于只能得到方差的理论估计值,检验的统计量

\[t=\frac{\overline{x}_1-\overline{x}_2}{\sigma_{\overline{x}_1-\overline{x}_2}} \]

当方差未知但相等,t统计量服从 \(n_1+n_2-2\)个自由度的t分布

当总体方差未知而且不相等,Wehch提出仍然采用

\[\frac{\overline{x}_1-\overline{x}_2}{\sigma_{\overline{x}_1-\overline{x}_2}} \]

作为统计量,称为t化统计量。但是并不服从前述自由度的统计分布,t化统计量服从t分布的自由度为

\[df=\frac{\left(\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}\right)^2}{\frac{\left(\frac{S_1^2}{n_1}\right)^2}{n_1-1}+\frac{\left(\frac{S_2^2}{n_2}\right)^2}{n_2-1}} \]

1.1.3 方差检验

应该采用哪个分析,取决于两总体的方差是否相对(齐性),对此,可以采用F检验(正态分布假设),或者levene‘s 方差同质性检验。

levene’s方差同质性检验的原假设是两总体方差无显著差异。levene’s方法主要借助单因素方差分析方法来实现,其主要思路是:

  • 对来自两个不同总体的两个样本分别计算样本均值。
  • 计算各观测与本组样本均值差的绝对值,得到两个绝对离差样本。
  • 利用单因素方差分析方法,依据F统计量的观测值和概率p值判断两组绝对离差的均值是否存在显著差异,即判断两组的平均绝对离差是否存在显著差异。若无显著差异则表明两总体方差齐性;反之,则相反。

1.1.4 检验R语言代码

(1). t检验-等方差
x1=c(1,2,3)
x2=c(1.5,2.5,3.5)t.test(x1,x2,var.equal = TRUE)

结果

Two Sample t-testdata:  x1 and x2
t = -0.61237, df = 4, p-value = 0.5734
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:-2.766958  1.766958
sample estimates:
mean of x mean of y 2.0       2.5
(2)t密度函数
# 自由度
df = 4# 计算密度函数值
x = seq(-4, 4, length = 100)
y = dt(x, df)# 绘制曲线
plot(x, y, type = "l", main = paste("自由度为", df, "的T分布密度函数"), xlab = "值", ylab = "密度")
image-20241228234005842
(3)t检验-不等方差
x1=c(1,2,3)
x2=c(1.5,2.5,3.5)t.test(x1,x2)

结果


Welch Two Sample t-testdata:  x1 and x2
t = -0.61237, df = 4, p-value = 0.5734
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:-2.766958  1.766958
sample estimates:
mean of x mean of y 2.0       2.5

(4)levene 检查

x1=c(1,2,3)
x2=c(1.5,2.5,3.5)library("car")leveneTest(x1,x2, center=mean)

结果

Warning message in leveneTest.default(x1, x2, center = mean):

1.2 两配对样本均值检验

1.2.1 检验理论依据

两配对样本均值检验的理论依据是样本均值的抽样分布。 由于配对样本的各观测具有一一对应关系,因此可将两个样本以观测为依据作差,得到差值样本,并检验差值样本的均值与零是否有显著差异。

  • 若差值样本的均值与零有显著差异,则可以认为配对样本来自的两个总体的均值差在统计上显著。

  • 反之,若差值样本的均值与零无显著差异,则可以认为配对样本来自的两个总体的均值差在统计上不显著。

所以,两配对样本的均值检验问题本质上是一个总体的均值检验问题,即用样本均值检验样本来自的总体均值是否为某个检验值。此时需关注样本均值的抽样分布。

若样本均值记为 x̄,总体均值记为 μ,总体方差记为 σ²,样本量记为 n,则样本均值服从正态分布,即 x̄~ N(μ, σ²/n)。

1.2.2 原假设和统计量

两配对样本均值检验的原假设为:两总体均值之差为零,差值样本来自的差值总体均值为零,也即两总体均值无显著差异。依据样本均值的抽样分布,检验统计量

\[z = \frac{\bar{x}}{\sigma / \sqrt{n}} \]

服从标准正态分布。因通常总体方差未知,故只能用样本方差 $$S^2$$ 作估计值。依据原假设,检验统计量为:

\[t = \frac{\bar{x}}{S / \sqrt{n}} \]

对于差值样本,检验统计量为

\[t = \frac{D}{S_D / \sqrt{n}} \]

其中,\(D\) 为差值样本的均值;\(S_D\) 为差值样本的样本标准差;\(n\) 为样本量。\(t\) 统计量服从有 \(n - 1\) 个自由度的 \(t\) 分布。

1.1.3 检验R语言代码

# 定义数据
x1 = c(1, 2, 3)
x2 = c(1.5, 2.5, 3.5)# 进行配对T检验
t.test(x1, x2, paired = TRUE)
Error in t.test.default(x1, x2, paired = TRUE): data are essentially constant
Traceback: # 你正在尝试进行配对T检验的数据几乎是常数。这意味着两个配对样本的值非常接近,或者它们之间的差异非常小。在# # 这种情况下,配对T检验可能无法提供有意义的统计结果。

1.3 单样本t检验

1.3.1 检验理论依据

单样本均值检验,即利用单个样本均值检验样本来的单个总体的均值是否为某个检验值$$
\mu_{0}$$。正如两配对样本均值检验中阐述的,该检验的理论基础是样本均值的抽样分布,即

\[\bar{x} \sim N\left(\mu,\frac{\sigma^{2}}{n}\right) \]

\[\mu$$为总体均值。总体方差通常未知,在原假设下,检验统计量为: \]

t = \frac{\bar{x}-\mu_{0}}{S/\sqrt{n}}

\[#### 1.3.2 检验R代码格式 \]

t.test(数值型向量名, mu = 检验值, alternative = 检验方向)

\[实例```r x=c(1,2,3) t.test(x,mu=3) ```结果```One Sample t-testdata: x t = -1.7321, df = 2, p-value = 0.2254 alternative hypothesis: true mean is not equal to 3 95 percent confidence interval:-0.4841377 4.4841377 sample estimates: mean of x 2 ```### 1.4 功效分析#### 1.4.1 概述在假设检验中,可能犯两种类型的错误。- 一类是原假设为真但却错误地拒绝了,这类错误称为弃真错误,犯错的概率定义为显著性水平α。由此可知,若原假设为真并且接受了,则做出这一正确决策的概率为1 - α。 - 另一类是原假设为假但却错误地接受了,这类错误称为取伪错误,犯错的概率定义为β。由此可知,若原假设为假并且拒绝了,则做出这一正确决策的概率为1 - β,1 - β称为统计功效。首先,犯弃真错误和取伪错误的概率同时都较小是一种良好的愿望。事实上,这两者就像是一个跷跷板的两端,弃真错误概率α越小,取伪错误概率β就越大,统计功效1−β也就越低。取伪错误概率β越小,统计功效1−β越高,弃真错误概率α也就越大。可见,统计功效1−β与显著性水平α有关,显著性水平α是影响统计功效的因素之一。其次,若事实上两总体的均值差异非常大,表现出两样本均值的差非常大,则两总体分布的重叠程度低。此时,即使弃真错误的概率不变,也很容易拒绝且正确拒绝两总体均值无显著差异这个错误的原假设,统计功效较高。所以,样本均值差的大小是影响统计功效的因素。进一步,由于样本均值差是一个绝对量,会受数据计量单位和数量级的影响。所以,**找到一个可反映两总体分布重叠程度的相对指标更有意义。这个相对指标称为效应量或效应大小(effect size,ES)**。效应量与分布重叠程度的对应关系已有表可查。可见,效应量是影响统计功效的主要因素。 再次,若事实上两总体的均值差异较大,则增大样本量会导致均值差的抽样分布的方差减小,使得检验统计量t的观测值增大,更易拒绝两总体均值无显著差异这个错误的原假设,此时统计功效较高。所以,样本量也是影响统计功效的因素。综上,显著性水平α、样本量、效应量、统计功效这四者之间存在必然联系,给出其中的三个项值,一定可计算出剩余的一个项值。这为人们做更为丰富的研究提供了可能。#### 1.4.2 效应量在样本均值检验的功效分析中,R采用Cohen提出的效应量的定义。两独立样本均值检验的效应量定义为: \]

ES = \frac{\vert \bar{x}_1 - \bar{x}_2 \vert}{\sqrt{\frac{S_1^2 + S_2^2}{2}}}

\[两配对样本均值检验的效应量定义为: \]

ES = \frac{\vert D \vert}{S_D}

\[单样本均值检验中的效应量定义为: \]

ES = \frac{\vert \bar{x} - \mu_0 \vert}{S}

\[其中,$$\mu_0$$为单样本均值检验的原假设值。根据Cohen的研究,此时的$$ES$$取0.2时效应量较小,取0.5时效应量中等,取0.8时效应量较大。#### 1.4.3 检验R代码样本量相同```R pwr.t.test(d = 效应量, n = 样本量, sig.level = 显著性水平, power = 统计功效, type = 检验类型, alternative = 检验方向) ```样本量不同```R pwr.t2n.test(d = 效应量, n1 = 样本量1, n2 = 样本量2, sig.level = 显著性水平, power = 统计功效, type = two.sample, alternative = 检验方向)` ```## 附录A## 附录B : Python 代码### B.1 两独立样本t检验```python import numpy as np from scipy import statsx1 = np.array([1, 2, 3]) x2 = np.array([1.5, 2.5, 3.5])t_stat, p_value = stats.ttest_ind(x1, x2, equal_var=True) df = len(x1) + len(x2) - 2 # 自由度# 计算均值 mean_x1 = np.mean(x1) mean_x2 = np.mean(x2)# 计算标准误差 se = np.sqrt(((len(x1)-1)*np.var(x1, ddof=1) + (len(x2)-1)*np.var(x2, ddof=1)) / df * (1/len(x1) + 1/len(x2)))# 计算95%置信区间 ci_low = (mean_x1 - mean_x2) - stats.t.ppf(0.975, df) * se ci_high = (mean_x1 - mean_x2) + stats.t.ppf(0.975, df) * se# 输出结果 print("Two Sample t-test") print("data: x1 and x2") print(f"t = {t_stat:.5f}, df = {df}, p-value = {p_value:.4f}") print("alternative hypothesis: true difference in means is not equal to 0") print(f"95 percent confidence interval:") print(f" {ci_low:.6f} {ci_high:.6f}") print("sample estimates:") print(f"mean of x mean of y ") print(f" {mean_x1:.1f} {mean_x2:.1f}")`````` Two Sample t-test data: x1 and x2 t = -0.61237, df = 4, p-value = 0.5734 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:-2.766958 1.766958 sample estimates: mean of x mean of y 2.0 2.5 ```### B.2 配对t检验### B.3 Levene检验```python import numpy as np from scipy import stats# 定义数据 x1 = np.array([1, 2, 3]) x2 = np.array([1.5, 2.5, 3.5])# 进行Levene检验 statistic, p_value = stats.levene(x1, x2)# 打印结果 print(f"Levene检验统计量: {statistic}") print(f"p值: {p_value}") ```## 参考文献 \]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/860684.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Khronos和EMVA便携式应用程序结构

Kamaros便携式应用程序结构 Kamaros便携式应用程序结构,如图1-11所示。图1-11Kamaros便携式应用程序结构 Khronos和EMVA合作 Khronos和EMVA合作,如图1-12所示。图1-12 Khronos和EMVA合作人工智能芯片与自动驾驶

Intel oneAPI DPC++和UXL基础与对并行处理的需求

Intel oneAPI DPC++和UXL基础 1)Intel oneAPI DPC++符合SYCL 2020规范 ①统一共享内存、并行约简、工作组算法、类模板。 ②论证推理、访问优化、扩展互操作性等。 2)UXL统一加速基础 ①加速计算开放生态系统。 ②工具和库。 ③编译器和开发工具。 ④API和规范。 3)Khronos和…

《智能汽车传感器:原理设计应用》《AI芯片开发核心技术详解》两本专著书推荐

两本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该书强力解析AI芯片的核心技术开发,内容翔实、知识点新…

《智能汽车传感器:原理设计应用》《AI芯片开发核心技术详解》专著书推荐

两本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该书强力解析AI芯片的核心技术开发,内容翔实、知识点新…

Diffusion Model-Stable Diffusion(一)

Stable Diffusion 是一个基于扩散模型的图像生成模型,可以用于生成高质量图像。其传统实现主要基于 PyTorch,最常用的开源实现是 CompVis/stable-diffusion 和 Hugging Face 的 diffusers 库。 如果你需要一个可以直接调用 Stable Diffusion 的接口,可以选择以下方法:1. 使…

一切的开始与结束

一、学期回顾 1.1 回顾对于软件工程课程的想象 对软件工程的第一印象 对于软件工程,我一开始没想那边多,认为他仅仅是和其他课程没什么区别的普通专业课罢了。但是日后的个人作业,结对作业,乃至团队编程都给了我当头一棒。 深刻的理解了开发软件面对的巨大压力。 初步达到我…

onedrive 同步文件排除制定类型

regedit修改注册表 计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\OneDrive\EnableODIgnoreListFromGPOOneDriveEnableODIgnoreListFromGPO 新建字符串值,值和数据都是 *.lnk

通过shadow来更改ubuntu密码,并且使用frp组网

局域网搜索 pings 所有设备找到在线设备并登录网页 :: 作者:mao 时间:2024 11.30 @echo off chcp 65001 >nul :: 启用延迟环境变量扩展 setlocal enabledelayedexpansion:: 检查是否提供了必要的参数 if "%~1"=="" (echo =============================…

图片使用LightBox浏览

在N多年前,在公司内部实现相似功能的图片浏览的网站,如公司团建,年会,聚餐,活动,外出旅游......以前,是以二进制数据流实现的,而且数据库没有存储图片任何信息,直接访问文件夹图片,因此得写好几个ashx,附带上目录。图集目录,进入某一图集,可以看到图片展示, 点击…

Go基础之环境搭建

目录1 Go1.1 简介1.1.1 定义1.1.2 特点用途1.2 环境配置1.2.1 下载安装1.2.2 环境配置1.2.2.1 添加环境变量1.2.2.2 各个环境变量理解1.2.3 验证环境变量1.3 包管理工具 Go Modules1.3.1 开启使用1.3.2 添加依赖包1.3.3 配置国内包源1.3.3.1 通过 go env 配置1.3.3.2 修改环境变…

PhpWebStudy(Web服务器和环境管理器) v4.5.1

PhpWebStudy 是一款功能强大的Web服务器和环境管理器,支持macOS、Windows和Linux三大操作系统。这一工具通过简洁的安装包和直观的界面,为开发者提供了一站式的本地Wb开发环境搭建方案,让你无需繁琐配置即可启动你的Web应用。PhpWebStudy采用了业界主流技术栈,包括但不限于…