【数学建模】清风数模正课5 相关性分析

 相关系数

相关性分析的关键是计算相关系数,在本节课中将会介绍两种常用的相关系数:皮尔逊相关系数(Pearson)和斯皮尔曼相关系数(Spearman)。

它们可以用来衡量两个变量间相关性的大小,对于不同类型的数据,我们要用不同的相关系数进行计算分析。

统计学概念

在学习这两个系数之前,我们需要了解一些必要的概率统计中的概念,以便于公式的理解和推导。

总体所要考察对象的全部个体
样本从总体中抽取的一部分个体

为了对考察对象进行分析,我们总是希望得到总体数据的一些特征,例如均值、方差、标准差等;

但总体数据往往过多,以致于难以进行计算,因此我们可以计算从从总体中抽取的样本的统计量,以此来估计总体的统计量。

皮尔逊相关系数

总体皮尔逊相关系数

X和Y的变化方向相同:当X大于其均值时,Y也大于其均值,当X小于其均值时,Y也小于其均值

协方差的本质:若X和Y的变化方向相同,则协方差为正;若X和Y的变化方向相反,则协方差为负;若X和Y的变化方向无关联,则协方差正负抵消为零。

注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。

皮尔逊相关系数的本质:可以看作剔除了两个变量量纲影响、将X和Y标准化后的协方差。

样本皮尔逊相关系数

 相关系数可视化

在计算相关系数之前,需要通过绘制散点图来判断X和Y之间的相关性,如果散点图显示二者不相关,那么计算出的相关系数也就没有意义了。

只有先确定两个变量是线性相关的,相关系数才能告诉我们这两个变量的相关程度如何。

  事实上,比起相关系数的大小,我们往往更关注的是其显著性,这就需要进行假设检验。

对皮尔逊相关系数进行假设检验

进行假设检验可以判断我们所求得的皮尔逊相关系数是否准确,若检验结果越显著,就表示我们求得的相关系数越不准确。

第一步:提出原假设和备择假设,两者是截然相反的;如果我们已经计算得到了一个皮尔逊相关系数,我们要检验它是否显著异于0,则可以设定原假设和备择假设为:H0:r=0    H1:r≠0

第二步:在原假设成立的条件下,利用我们要检验的量构造出一个符合某一分布的统计量

第三步:将我们要检验的值带入统计量中,可以得到一个特定的检验值

第四步:我们可以根据统计量的分布绘制一个概率密度函数图像,并给定一个置信水平,一般为95%,根据这个置信水平查找到临界值,并画出检验统计量的接受域和拒绝域

第五步:看我们计算出来的检验值是落在了接受域还是拒绝域,并下结论。

皮尔逊相关系数假设检验的条件

第一,实验数据通常是成对地来自于正态分布的总体;

第二,实验数据之间的差距不能太大,皮尔逊相关系数受异常值的影响比较大;

第三,每组样本之间是独立抽样的。

从上面可以知道,我们需要正态分布的数据,才可以进行假设检验,所以我们还需要进行正态分布检验。

正态分布检验使用的方法是JB检验,JB检验也是一个假设检验的过程。

若实验数据足够多,那我们就可以使用Q-Q图来检验,只要图上的点近似地在一条直线附近,我们就可以说样本数据近似于正态分布。

斯皮尔曼相关系数

对斯皮尔曼相关系数也要进行假设检验。

两个相关系数的比较

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/88339.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode刷题:395. 至少有 K 个重复字符的最长子串、823. 带因子的二叉树

Leetcode刷题:395. 至少有 K 个重复字符的最长子串、823. 带因子的二叉树 1. 395. 至少有 K 个重复字符的最长子串算法思路参考代码和运行结果 2. 823. 带因子的二叉树算法思路参考代码和运行结果 1. 395. 至少有 K 个重复字符的最长子串 题目难度:中等 标签&#…

[QT]设置程序仅打开一个,再打开就唤醒已打开程序的窗口

需求&#xff1a;speedcrunch 这个软件是开源的计算器软件。配合launch类软件使用时&#xff0c;忘记关闭就经常很多窗口&#xff0c;强迫症&#xff0c;从网上搜索对版本进行了修改。 #include "gui/mainwindow.h"#include <QCoreApplication> #include <…

解决AD(Altium Designer)导入HFSS的dxf文件只有轮廓,填充的方法

解决Altium Designer导入HFSS的dxf文件只有轮廓&#xff0c;填充的方法 环境操作 环境 Altium Designer (19.0.4) 操作 设计》规则 左键框选 工具》转换》从选择的元素创建铺铜 选好点击apply 多重复几次&#xff0c;就全填充完了。

瑞幸带领咖啡界进入低价时代,背后的用意是什么?

瑞幸作为国内首家突破万店的咖啡品牌,为何又会推出9.9元低价购买咖啡的活动呢,据相... 在线上线下的渠道里大肆推送0.99-9.9的优惠券。 是谁还没有为瑞幸9.9元拼过命&#xff0c;小编身边的人每天靠咖啡续命&#xff0c;有时还会借用别人的9.9&#xff0c;去薅所谓的“羊毛”。…

视频集中存储/云存储平台EasyCVR国标GB28181协议接入的报文交互数据包分析

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。视频汇聚融合管理…

npm install sentry-cli失败的问题

1. 目前报错 2. 终端运行 npm set ENTRYCLI_CDNURLhttps://cdn.npm.taobao.org/dist/sentry-cli npm set sentrycli_cdnurlhttps://cdn.npm.taobao.org/dist/sentry-cli3. 再安装 npx sentry/wizardlatest -i nextjs即可成功

【Java基础篇】一文搞懂Java方法的调用与重载(超详细)

个人主页&#xff1a;兜里有颗棉花糖 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 兜里有颗棉花糖 原创 收录于专栏【JavaSE_primary】 目录 一、方法的概念以及使用1.1什么是方法1.2方法定义1.3方法调用的执行过程1.4形参和实参的关系 二、方法的重载方…

腾讯云服务器价格表大全_轻量服务器_CVM云服务器报价明细

腾讯云服务器租用费用表&#xff1a;轻量应用服务器2核2G4M带宽112元一年&#xff0c;540元三年、2核4G5M带宽218元一年&#xff0c;2核4G5M带宽756元三年、云服务器CVM S5实例2核2G配置280.8元一年、GPU服务器GN10Xp实例145元7天&#xff0c;腾讯云服务器网长期更新腾讯云轻量…

7.接着跑一下triton官方教程

5.Model Ensemble 在此示例中&#xff0c;我们将探索使用模型集成来仅通过单个网络调用在服务器端执行多个模型。这样做的好处是减少了在客户端和服务器之间复制数据的次数&#xff0c;并消除了网络调用固有的一些延迟。 为了说明创建模型集成的过程&#xff0c;我们将重用第…

19 NAT穿透|python高级

文章目录 网络通信过程NAT穿透 python高级GIL锁深拷贝与浅拷贝私有化import导入模块工厂模式多继承以及 MRO 顺序烧脑题property属性property装饰器property类属性 魔法属性\_\_doc\_\_\_\_module\_\_ 和 \_\_class\_\_\_\_init\_\_\_\_del\_\_\_\_call\_\_\_\_dict\_\_\_\_str…

DP读书:鲲鹏处理器 架构与编程(十三)操作系统内核与云基础软件

操作系统内核与云基础软件 鲲鹏软件构成硬件特定软件 鲲鹏软件构成硬件特定软件1. Boot Loader2. SBSA 与 SBBR3. UEFI4. ACPI 操作系统内核Linux系统调用Linux进程调度Linux内存管理Linux虚拟文件系统Linux网络子系统Linux进程间通信Linux可加载内核模块Linux设备驱动程序Linu…

zookeeper启动失败(Error contacting service. It is probably not running.)

问题描述 启动zk时报如下错误&#xff1a; 解决办法 先查日志找找报错原因&#xff1a; 找到zk安装目录下的logs文件夹下的日志文件&#xff0c;查看连接失败原因&#xff1a; 如果是端口问题&#xff0c;修改conf文件&#xff0c;指定端口重新启动即可&#xff1a; 注&a…