数据描述的统计量解释-上

目录

一.导读

二.介绍 

①算数平均数

②几何平均数

③标准差

④变异系数

⑤分位数

⑥方差

三.结尾


一.导读

在讲到数据描述的时候,我们提及了数据集中位置、离散程度、偏度和峰度以及单个数据变量的分布情况。而在这些当中,我们遇到了一些统计量的概念问题,有一些使我们数学统计学接触过的,有一些是我们不懂的,那么这一篇就是为了给大家对这些统计量进行解释。

另外,代码的具体使用在这两篇文章当中已有说明: 

数据探索与可视化:数据描述-上-CSDN博客

数据探索与可视化:数据描述-下-CSDN博客

二.介绍 

对于众数、中位数、极差简单概念这里不再过多强调,下面开始来介绍。 

①算数平均数

 {\mu} =1/n\times(X1+X2+X3+...+Xn)=1/n\times\sum_{i=1}^{n}xi

②几何平均数

G=\sqrt[n]{X1+X2+X3+...+Xn}=\sqrt[n]{\prod_{i=1}^{n}Xi}

几何平均值具有平滑化数据的特性,尤其对那些包含指数性增长或减少的数据集非常有用。与算术平均值相比,几何平均值更加关注相对变化,对异常值的影响较小。这使得它在处理百分比变化或比率时更为合适。 

值得注意的是:几何平均数在数学上是小于等于算数平均数的,这里大家自行去证明,我给出一定的提示:有根号的话,通过等式两边取对数进行,n则会变为分母,接着使用对数的变化规则进行化简,最后我们得到这么一个式子:

1/k(lnX1+lnX2+...+lnXk)\leqslant ln((X1+X2+...+Xk)/k)

令f(x)=ln(x)在其定义域为凸函数,根据Jensen不等式即可证明。

注意:当统计量或模型对于异常值敏感时,意味着这些异常值可能会显著地影响统计量的计算结果或模型的预测能力。这是因为:如果数据集中存在一个极端异常值,它可能会严重偏离整体数据的中心趋势,导致平均值不再准确地代表数据的集中趋势。

③标准差

标准差是一种用于衡量数据集中数值分散程度的统计量。它表示数据集中各个数据点相对于平均值的平均偏离程度。标准差越大,表示数据的离散程度越高;标准差越小,表示数据的离散程度越低。

 \sigma = \sqrt{\frac{\sum_{i=1}^{n} (Xi - \mu)^2}{n}}

④变异系数

变异系数(Coefficient of Variation,简称CV)是用于衡量数据相对于其均值的相对离散程度的统计量。它是标准差与均值之比,通常以百分比形式表示。变异系数提供了一种在不同尺度和单位的数据集之间比较离散程度的方法,较小的变异系数表明数据相对较集中,而较大的变异系数表示数据相对较分散。

例如,如果你要比较两个产品的质量变异,其中一个产品的质量以克为单位,另一个以千克为单位,使用标准差可能会使比较变得困难。但是,通过使用变异系数,你可以摆脱单位的束缚,更好地比较两者的相对离散程度。

需要注意的是,变异系数要求均值不等于零,因为在零均值的情况下,分母为零,计算变异系数将没有意义。

CV = \left( \frac{\sigma}{\mu} \right) \times 100\%

⑤分位数

分位数是统计学中用于将数据集划分为若干等分的值。分位数提供了一个描述数据分布的方式,通过将数据集划分为不同的部分,可以更好地理解数据的中心趋势离散程度

  1. 中位数(二分之一分位数): 将数据集按大小排序,中间的值即为中位数。如果数据集有偶数个数据点,中位数是中间两个数的平均值。

  2. 下四分位数(第一四分位数): 将数据集的下半部分(25%至50%)排序,下四分位数是这部分数据的中位数。

  3. 上四分位数(第三四分位数): 将数据集的上半部分(50%至75%)排序,上四分位数是这部分数据的中位数。

  4. 百分位数: 除了中位数、四分位数外,还可以计算其他百分位数,比如第(p)个百分位数,表示将数据集分成(p%)和((100-p%))两个部分的值。例如,第90百分位数是将数据集分成90%和10%两个部分的值。

分位数的应用包括描述数据的整体分布,检测异常值,以及进行盒图(box plot)等可视化分析。盒图通常用于直观地显示数据的中位数、四分位数和异常值。

⑥方差

方差是描述数据分布离散程度的一种统计量。它衡量了数据集中各个数据点与数据集均值之间的差异程度。更具体地说,方差是各个数据点与数据集均值之间差值的平方的平均值。

方差的值越大,表示数据点之间的差异越大,数据分布越分散;方差的值越小,表示数据点之间的差异越小,数据分布越集中。

方差在统计学和数据分析中有着广泛的应用,它能够帮助我们理解数据的分布情况,评估数据的稳定性和可靠性,以及进行假设检验等。然而,方差也有一些局限性,特别是对于异常值敏感,因此在某些情况下,为了更好地描述数据分布的形态,可能需要结合其他统计量进行分析。

 公式如下:

\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2

三.结尾

在下篇,我们将对其他统计量具体介绍帮助大家较好的去理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/452068.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Python] opencv - 什么是直方图?如何绘制图像的直方图?

什么是直方图? 直方图是一种统计图,用于展示数据的分布情况。它将数据按照一定的区间或者组进行划分,然后计算在每个区间或组内的数据频数或频率(即数据出现的次数或占比),然后用矩形或者柱形图的形式将这…

空中加油3D可视化:引领航空领域的新革命

随着科技的日新月异,我们生活的方方面面都在发生着深刻的变化。而在航空领域,3D可视化技术正在引领新的革命。它不仅为飞行员提供了一种全新的视角,更在保障飞行安全、提高飞行效率方面发挥着不可替代的作用。 在传统的空中加油中&#xff0c…

Vulnhub靶机:hacksudo2 (HackDudo)

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.15) 靶机:hacksudo2 (HackDudo)(10.0.2.44) 目标:获取靶机root权限和flag 靶机下载地址:https://download.vulnh…

树莓派5一键安装C++版本OpenCV

安装环境 本人当前的安装环境: 树莓派5Raspberry Pi os (64-bit) Debian12 Bookworm 镜像下载地址 我这里是将镜像安装好后直接安装opencv,如果不是刚安装好的镜像需要注意是否有openCV的python之类的安装过,不然可能出现编译错误 一、扩展内…

ShardingSphere 5.x 系列【3】分库分表中间件技术选型

有道无术,术尚可求,有术无道,止于术。 本系列Spring Boot 版本 3.1.0 本系列ShardingSphere 版本 5.4.0 源码地址:https://gitee.com/pearl-organization/study-sharding-sphere-demo 文章目录 1. 前言2. My Cat3. ShardingSphe…

数据链路层相关知识

1.1 以太网(横跨数据链路层和物理层) 数据帧格式 数据链路层,引入另外一套地址体系,称为“mac地址” / 物理地址。(mac地址和IP地址是独立的俩套地址体系) 1.2 mac MAC 地址,即 Media Access …

ProcessSlot构建流程分析

ProcessorSlot ProcessorSlot构建流程 // com.alibaba.csp.sentinel.CtSph#lookProcessChain private Entry entryWithPriority(ResourceWrapper resourceWrapper, int count, boolean prioritized, Object... args)throws BlockException {// 省略创建 Context 的代码// 黑盒…

冻结Prompt微调LM: T5 PET

T5 paper: 2019.10 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Task: Everything Prompt: 前缀式人工prompt Model: Encoder-Decoder Take Away: 加入前缀Prompt,所有NLP任务都可以转化为文本生成任务 T5论文的初衷如…

node-sass版本与NodeJS版本不匹配的问题

npm install 报错如下 npm ERR! code 1 npm ERR! path D:\Project\git_Product\YYYY\user\node_modules\node-sass npm ERR! command failed npm ERR! command C:\WINDOWS\system32\cmd.exe /d /s /c node scripts/build.js 问题原因 node-sass 与 node 版本不匹配 卸载Node…

【Linux取经路】进程控制——程序替换

文章目录 一、单进程版程序替换看现象二、程序替换的基本原理三、程序替换接口学习3.1 替换自己写的可执行程序3.2 第三个参数 envp 验证四、结语一、单进程版程序替换看现象 #include <stdio.h> #

VSCODE使用ssh远程连接时启动服务器失败问题

错误情况 ping服务器的ip可通并且使用terminal可以ssh连接到远程服务器。但使用vscode的remote-ssh时&#xff0c;在「输出」栏出现了一直报 Waiting for server log… 的情况&#xff01; 解决方法一 重置服务器设置&#xff0c;包括以下手段&#xff1a; 1.清理服务器端的…

Java并发基础:FutureTask全面解析!

内容概要 FutureTask结合了Future和Runnable接口&#xff0c;它能够异步执行任务&#xff0c;提高程序响应性&#xff0c;可以获取任务执行结果&#xff0c;并且支持任务取消机制&#xff0c;提高了灵活性&#xff0c;同时&#xff0c;它简化了并发编程&#xff0c;使多线程开…