数理统计中的分位数

news/2024/12/16 15:07:46/文章来源:https://www.cnblogs.com/Mount256/p/18610194

目录
  • 上分位数和下分位数的定义
    • 下分位数的直观理解
    • 上分位数的直观理解
  • 常用分布中的分位数
    • 正态分布
    • 卡方分布

上分位数和下分位数的定义

设连续型随机变量 \(X\) 的分布函数为 \(F(x)\),概率密度函数为 \(f(x)\),则:

  • 对于任意正数 \(\alpha(0<\alpha<1)\),称满足条件

\[F(x_{\underline{\alpha}}) = \int_{-\infty}^{x_{\underline{\alpha}}} f(x)dx = \alpha \]

的数为此分布的 \(\alpha\) 分位数或下 \(\alpha\) 分位数。

理解下 \(\alpha\) 分位数:从 \(x_{\alpha}\) 这个点把分布函数图像切成两个部分,左边部分面积占比 \(\alpha\),右边部分面积占比 \(1-\alpha\)。(下图右图)

  • 对于任意正数 \(\alpha(0<\alpha<1)\),称满足条件

\[1-F(x_{\alpha}) = \int_{x_{\alpha}}^{+\infty} f(x)dx = \alpha \]

的数为此分布的上 \(\alpha\) 分位数。

理解上 \(\alpha\) 分位数:从 \(x_{\alpha}\) 这个点把分布函数图像切成两个部分,左边部分面积占比 \(1-\alpha\),右边部分面积占比 \(\alpha\)。(下图左图)

上分位数和下分位数的关系如下:

  • \(x_{\underline{\alpha}} = x_{1-\alpha}\)
  • \(x_{\alpha} = x_{\underline{1-\alpha}}\)

下分位数的直观理解

分位数是数理统计中用来描述数据分布的一种统计量,它将数据集分成若干个部分,使得每个部分包含相同数量的数据点。常见的分位数包括中位数(50%分位数)、四分位数(25%和75%分位数)等。

  • 中位数(Median):将数据分成两部分,中位数是数据中间的值,50%分位数。
  • 四分位数(Quartiles)
    • 第一四分位数(Q1):将数据下25%的点分开。
    • 第二四分位数(Q2):即中位数(50%分位数)。
    • 第三四分位数(Q3):将数据上25%的点分开。

假设有以下一组数据:

数据集:3, 7, 8, 12, 14, 18, 20
  1. 计算中位数

    • 排序后的数据为:3, 7, 8, 12, 14, 18, 20
    • 中位数(Q2)是中间的值,即 12
  2. 计算四分位数

    • 第一四分位数(Q1):前半部分数据是 3, 7, 8,中位数是 7
    • 第三四分位数(Q3):后半部分数据是 14, 18, 20,中位数是 18

上分位数的直观理解

上分位数(Upper Quantile):一个分位数 \(q\) 的上分位数是指使得有 \(1 - q\) 的数据点小于该分位数的值。

常见的上分位数:

  • 上四分位数(Q1):表示25%数据点大于该值,75%数据点小于该值。
  • 上中位数:在中位数(Q2)中,50%的数据点大于该值。
  • 上95%分位数(即95th Percentile):表示有5%的数据点大于该值,95%的数据点小于该值。

假设我们有一组数据,表示某个考试的分数:

数据集:55, 60, 65, 70, 75, 80, 85, 90, 95, 100

计算上分位数

  • 上四分位数(Q1)

    • Q1 = 65(25%的数据点大于65)。
  • 上中位数(Q2)

    • Q2 = 75(50%的数据点大于75)。
  • 上95%分位数

    • 95th Percentile = 95(5%的数据点大于95)。

常用分布中的分位数

不同分布的符号简写:

  • b:二项分布
  • p:泊松分布
  • u:标准正态分布
  • e:指数分布
  • z:正态分布(不一定是标准的)

正态分布

标准正态分布表

\(X \sim N(0,1)\) 即服从标准正态分布,则分布函数记为 \(\Phi(x)\)。由标准正态分布的对称性可知:\(\Phi(-x) = 1-\Phi(x)\)。显然,\(P \{ x_1 < X < x_2 \} = \Phi(x_2) - \Phi(x_1)\)

  • 对于上分位数 \(u_{\alpha}\),有 \(\Phi(u_{\alpha}) = 1 - \alpha\)
  • 对于下分位数 \(u_{\alpha}\),有 \(\Phi(u_{\alpha}) = \alpha\)
  • 上下分位数之间的关系有 \(u_{\alpha} = -u_{1-\alpha}\)(仅标准正态分布成立)

对于自由度为 \(n\) 的 t 分布也有类似的结论:\(t_{\alpha}(n) = -t_{1-\alpha}(n)\)。当 \(n (n>45)\) 足够大时,有:\(t_{\alpha}(n) \approx u_{\alpha}\)

标准正态分布中常见的分位数:

  • 0.25分位数(第一四分位数 Q1):约为 -0.6745,即 \(u_{0.25} = -u_{0.75} \approx -0.6745\)
  • 0.50分位数(中位数 Q2):为 0,即 \(u_{0.50} = 0\)
  • 0.75分位数(第三四分位数 Q3):约为 0.6745,即 \(u_{0.75} \approx 0.6745\)

假设我们有一组服从正态分布 \(N(100, 15^2)\) 的随机变量,即均值为100,标准差为15。我们可以计算这些变量的分位数。

  • 25%分位数(Q1):

    • 使用标准正态分布的Q1值:约为 -0.6745。
    • 实际分位数计算:Q1 = 100 + (-0.6745 × 15) ≈ 90.87
  • 50%分位数(Q2):

    • 使用标准正态分布的Q2值:为 0。
    • 实际分位数计算:Q2 = 100 + (0 × 15) = 100
  • 75%分位数(Q3):

    • 使用标准正态分布的Q3值:约为 0.6745。
    • 实际分位数计算:Q3 = 100 + (0.6745 × 15) ≈ 109.12

卡方分布

\(\chi^2 \sim \chi^2(n)\),则上分位数 \(\chi^2_{\alpha}\) 是满足以下条件的值:

\[P \{ \chi^2 > \chi^2_{\alpha}(n) \} = \alpha \]

这意味着有 \(1-\alpha\) 的概率观测值会大于该上分位数值。

上分位数的应用:

  1. 假设检验:在卡方检验中,通常使用上分位数来决定拒绝域。例如,在检验两个分类变量的独立性时,可以使用卡方统计量与上分位数进行比较。
  2. 置信区间:在构建卡方分布的置信区间时,也会使用上分位数。

假设我们有一个卡方分布 \(\chi^2 \sim \chi^2(5)\),即自由度 \(n = 5\),我们想找出上5%分位数(\(\alpha=0.05\),即95%分位数):

  • 查卡方分布表,找到自由度为5时,与0.95对应的上分位数 \(\chi^2_{0.05}\)
  • 结果为大约 11.070。

这意味着在自由度为5的卡方分布中,有5%的概率观察到的值会大于11.070。类似的还有 F 分布中的上分位数,此处不再赘述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/853797.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SWD下载口的端口状态

1、关于SWD SWD是MCU下载程序和调试的端口,分为四线制和五线制 四线制:VCC GND SWDIO SWCKL 五线制:VCC GND SWDIO SWCLK RESET 四线制没有留出RESET引脚,没有RESET引脚,下载完程序,会自动运行。SWDIO是双向数据线,实现数据的输入和输出。SWCLK是 时钟信号线。 2、SWD电…

工作睡觉监测识别摄像机

工作睡觉监测识别摄像机是一种用于监测员工是否在工作时间内偷懒、打瞌睡或者进行其他不合规行为的智能监控设备。这种摄像机利用先进的人工智能和图像识别技术,能够实时监测员工的工作状态,发现异常行为并采取相应的措施。工作睡觉监测识别摄像机是一种用于监测员工是否在工…

FMC子卡设计方案:202-基于TI DSP TMS320C6678、Xilinx K7 FPGA XC7K325T的高速数据处理核心板

基于TI DSP TMS320C6678、Xilinx K7 FPGA XC7K325T的高速数据处理核心板一、板卡概述 该DSP+FPGA高速信号采集处理板由我公司自主研发,包含一片TI DSP TMS320C6678和一片Xilinx FPGA K7 XC72K325T-1ffg900。包含1个千兆网口,1个FMC HPC接口。可搭配使用AD FMC子卡、图像FMC子…

VMware Workstation 整理磁盘碎片失败: 指定的虚拟磁盘需要进行修复。

问题: VMware Workstation 整理磁盘碎片报错: 整理磁盘碎片失败: 指定的虚拟磁盘需要进行修复。 解决办法: (1)找到vmware的安装目录 (可以直接用everything搜索vmware-vdiskmanager查看目录),在目录框下执行cmd命令(C:\Windows\System32\cmd.exe)运行 注:如果没有在安…

必学!定位模组Air201通话功能详解!

希望这篇文章能帮助你掌握定位模组Air201的通话功能,感兴趣的朋友一起来学。 VoLTE通话功能示例 Air201模组的4G通信功能,通过VoLTE技术实现高清语音通话,支持音频编解码、硅麦输入和喇叭输出。在通话过程中,声音信号通过MIC捕捉并转换为数字音频数据,经4G网络实时传输至对…

跨境电商新利器:看板软件解锁圣诞节消费者心理

看板软件通过整合多源数据、实时监控销售数据、分析历史数据、挖掘消费者行为数据、优化供应链管理以及提高决策效率等方面的功能,为跨境电商提供了有力的支持。这些功能有助于跨境电商更准确地把握圣诞节消费者倾向,制定更精准的营销策略和产品定价策略,从而提升销售业绩和…

DB-GBP功能使用探索

目录1.DBGPT支持的功能2.配置StarRocks数据库3. ChatBI4. APP创建使用5. 元数据库配置6. API 调用探索6.1 app6.2 datasources6.3 Knowledge7. 问题总结8. 贡献的PR 1.DBGPT支持的功能2.配置StarRocks数据库支持多种数据库链接 但是只支持一个库访问查询3. ChatBI数据准确性不够…

Vue 前端学习路线

一、基础阶段(1 - 2 个月)HTML/CSS/JavaScript 基础巩固复习 HTML 标签语义、结构,熟练掌握常见标签如 div、span、input、button 等的用法,理解块级元素与行内元素的区别与应用场景。 深入学习 CSS 选择器、盒模型、浮动、定位等布局技术,能够实现复杂页面布局,如响应式…

Hyperledger Fabric 2.x 环境搭建

Hyperledger Fabric 是一个开源的企业级许可分布式账本技术(Distributed Ledger Technology,DLT)平台,专为在企业环境中使用而设计,与其他流行的分布式账本或区块链平台相比,它有一些主要的区别。 环境准备: Git 客户端 Golang 1.17.5以上版本 Docker 18.03以上版本 版本…

实验文档6

关于第6次实践课作业 实验结论 task4.c1 #define _CRT_SECURE_NO_WARNINGS2 #include <stdio.h>3 #define N 104 5 typedef struct {6 char isbn[20]; // isbn号7 char name[80]; // 书名8 char author[80]; // 作者9 double s…

实时协作+跨时区支持,在线文档的未来是什么?

在线文档协作如何突破跨境流程协作的瓶颈 在全球化的今天,越来越多的企业面临跨国、跨时区的协作挑战。跨境团队需要的不仅是语言和文化的融合,还需要高效的流程管理和信息同步工具,而在线文档协作正是破局的关键之一。 跨境协作的难点 跨境流程协作中,企业往往会遇到以下挑…

java中RSA加密解密的使用

作为常用的非对称加密算法,本篇文章大致记录一下,在java代码中如何生成RSA的密钥对以及加密解密的使用。 1、生成密钥对public class RSAUtils {// 填充方式public static final String RSA_ALGORITHM_NOPADDING = "RSA";public static final String RSA_ALGORITHM…