概率论和数理统计(三)数理统计基本概念

前言

“概率论”是给定一个随机变量X的分布F(x),然后求某事件A概率 P ( x ∈ A ) P(x \in A) P(xA)或者随机变量X的数字特征.“统计”是已知一组样本数据 { x 1 , x 2 , . . . x n } \{x_1,x_2,...x_n\} {x1,x2,...xn},去求分布F(x)

统计的基本概念

在统计中,总体X的分布要么未知,要么分布形式已知但参数未知,需要抽取部分个体来推断。

总体与样本

在这里插入图片描述

代表性的进一步解释: X i X_i Xi与总体 X X X 同分布。保证总体中每个值都有同样的机会被抽到

关于样本是谁随机变量,还是值?

  • 当代入总体分布函数时是值
  • 当样本分布函数(抽样分布)分析的时候是随机变量

简单随机样本的性质

在这里插入图片描述
在这里插入图片描述

统计量

统计量来自总体一个样本,不含任何未知参数,完全由样本来确定,也就是说,根据样本可以求出我们需要的任何一个统计量的值。
在这里插入图片描述

常用统计量

在这里插入图片描述

为什么样本方差的分母是 n-1?
只要采样数小于个体数,采样本身就会引入分布的误差,因此需要进行较正。
采样带来的误差就是原来分布的强化,是可以计算的n/(n-1)的修正并非随便给的
在这里插入图片描述
如图 E [ S 2 ] ∗ n / ( n − 1 ) E[S^2]*n/(n-1) E[S2]n/(n1)是正常的方差,所以修正过的样本方差 = 末修正过的样本方差*n/(n-1),

抽样分布

样本统计量的分布称为抽样分布.他通常也是随机变量X的分布函数.抽样分布中,最常用的分布其实是4种:z 分布(即正态分布)、卡方分布、t分布、F分布。

卡方分布

在这里插入图片描述

在这里插入图片描述

  • 关于标准正态N(0,1):EX=0,DX=1
  • 根据总体标准正态,求得样本卡方分布: EX=n,DX=2n
  • ∑ i = 1 n E ( X i 2 ) = ∑ i = 1 n E ( ( X i − X ˉ + X ˉ ) 2 ) \sum_{i=1}^nE(X_i^2) = \sum_{i=1}^nE((X_i-\bar{X}+\bar{X})^2) i=1nE(Xi2)=i=1nE((XiXˉ+Xˉ)2)
  • = ∑ i = 1 n E ( ( X i − X ˉ ) 2 + 2 X i X ˉ − X ˉ 2 ) ) = \sum_{i=1}^nE((X_i-\bar{X})^2+2X_i\bar{X}-\bar{X}^2)) =i=1nE((XiXˉ)2+2XiXˉXˉ2))
  • = ∑ i = 1 n [ D ( X i ) + E 2 ( X i ) ] = \sum_{i=1}^n[D(X_i)+E^2(X_i)] =i=1n[D(Xi)+E2(Xi)]

参数估计

主要解决总体分布形式已知但参数未知,即总体 X X X分布函数 F ( x , θ ) F(x, \theta) F(x,θ) 形式已知,估计未知参数 θ \theta θ

点估计

在这里插入图片描述

矩估计法

在这里插入图片描述
在这里插入图片描述

极大似然估计

在这里插入图片描述

极大似然估计以“我抽样出来的情况就是最大概率”的情况为前提,求参数 θ \theta θ的最大值.

在这里插入图片描述

估计量的优良性评判

既然是估计量,那与真实值之间就存在误差,因此需要判断估计量是否满足我们的要求,可以通过下面的几个准则来进行评判。
在这里插入图片描述
在这里插入图片描述

区间估计

在这里插入图片描述

矩估计法的前提是基于“抽样分布”和“主分布”是一致的情况下. 区间估计法则是表示定置水平一致的情况下,你去构建枢轴变量(带未知数统计量)和抽样分布,最终确定未知量

定置水平的理解: 你要估计全班的身高, 抽样了10得出了身高区间(a,b),然后给出了全部97%的人,身高在(a,b).97%就属于定置水平

在这里插入图片描述

x ˉ − u σ / n {{\bar{x}-u} \over {\sigma}/\sqrt{n}} σ/n xˉu是正态分布 N ( u , σ 2 ) N(u,\sigma^2) N(u,σ2)转为标准正态 N ( 0 , 1 ) N(0,1) N(0,1)的随机变量X的转换关系

统计量参考

在这里插入图片描述

假设检验

假设检验的基本原理:给定一个假设 H 0 H_0 H0,为了检验 H 0 H_0 H0是否正确,首先假定 H 0 H_0 H0是正确的,然后根据抽取到的样本来判断是接收还是拒绝该假设。如果样本中出现了不合理的观测值,应该拒绝 H 0 H_0 H0,否则应该接受假设

  1. 观测值:即样本的统计量
  2. “不合理”指的是小概率事件发生,常用 α \alpha α来表示这个小概率,也被称为检验的显著性水平 (与点估计中区间估计中的信置水平,差不多的功能).

拒绝域与临界值

在这里插入图片描述

从某种意义上说,设计一个检验,本质上就是找到一个恰当的拒绝域W,使得当 H 0 H_0 H0成立时
P ( x ∈ W ∣ H 0 成立 ) = α P(x \in W|H_0成立)=\alpha P(xWH0成立)=α
即把“小概率事件”视为与拒绝域 W W W是等价的

假设检验存在两类错误

在这里插入图片描述

  • 通常只规定 α \alpha α的取值,即控制犯第I类错误的概率
  • 使犯第二类错误的概率尽可能小,要使两者犯错的概率都小,就必须增大样本容量

假设检验的基本步骤

在这里插入图片描述

在这里插入图片描述

统计量参考

在这里插入图片描述

关于为什么总分布都是以正态分布?

因为中心极限定理。自然界的很多现象都是由无数微小因素的叠加而产生的,而无论这种因素服从何种分布,在大尺度上来观察,其结果都应大致符合正态分布。
网上有一篇文章叫《正态分布的前世今生》,非常推荐学习概率统计的人读一读。

主要参考

《为什么样本方差(sample variance)的分母是 n-1》
《数理统计学习笔记01:数理统计的基本概念》
《数理统计学习笔记03:参数的点估计》
《第六章 数理统计的基本概念》
《第七章 参数估计》
《期末复习——概率论与数理统计基本概念总结》
《第八章 假设检验》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/171301.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android framework添加自定义的Product项目,lunch目标项目

文章目录 Android framework添加自定义的Product项目1.什么是Product?2.定义自己的Product玩一玩 Android framework添加自定义的Product项目 1.什么是Product? 源码目录下输入lunch命令之后,简单理解下面这些列表就是product。用于把系统编…

飞天使-template模版相关知识

遇到报错django.template.exceptions.TemplateSyntaxError: ‘staticfiles’ is not a registered tag library. Must ROOT_URLCONF TEMPLATES [{BACKEND: django.template.backends.django.DjangoTemplates,DIRS: [os.path.join(BASE_DIR, templates)],APP_DIRS: True,OPTI…

c++四种类型转换

首先我们要先引入上行转换和下行转换的概念 所谓上行转换,即将原来的子类指针转换成父类指针; 下行转换即将原来的父类指针转换成子类指针 由于子类对象的空间较大,所以把子类强制转换父类给父类指针赋值时,父类指针对象能读取…

ISP图像处理Pipeline

参考:1. 键盘摄影(七)——深入理解图像信号处理器 ISP2. Understanding ISP Pipeline3. ISP图像处理流程介绍4. ISP系统综述5. ISP(图像信号处理)之——图像处理概述6. ISP 框架7. ISP(图像信号处理)算法概述、工作原理、架构、处理流程8. ISP全流程简介9. ISP流程介…

1.jvm基本知识

目录 概述jvm虚拟机三问jvm是什么?java 和 jvm 的关系 为什么学jvm怎么学习为什么jvm调优?什么时候jvm调优调优调什么 结束 概述 相关文章在此总结如下: 文章地址jvm类加载系统地址双亲委派模型与打破双亲委派地址运行时数据区地址 jvm虚拟机三问 j…

Python 日志记录器logging 百科全书 之 日志回滚

Python 日志记录器logging 百科全书 之 日志回滚 前言 在之前的文章中,我们学习了关于Python日志记录的基础配置。 本文将深入探讨Python中的日志回滚机制,这是一种高效管理日志文件的方法,特别适用于长时间运行或高流量的应用。 知识点&…

NFTScan | 11.06~11.12 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。 周期:2023.11.06~ 2023.11.12 NFT Hot News 01/ 《辛普森一家》提及 NFT 及区块链,相关 NFT 地板价涨至 0.35 ETH 11 月 6 日,据 Coindesk 报道,美国时间周…

数据分析-numpy

numpy numpy numpy简介优点下载ndarray的属性输出数据类型routines 函数ndarray对象的读写操作ndarray的级联和切分级联切分 ndarray的基本运算广播机制(Broadcast)ndarry的聚合操作数组元素的操作numpy 数学函数numpy 查找和排序 写在最后面 简介 nump…

RabbitMQ实战

文章目录 1、简介2、MQ优点缺点MQ的应用场景AMQP工作原理市面上常见的MQ 3、Linux安装RabbitMQ3.1 版本对应3.2 安装socat3.3 下载 Erlang/OTP、安装、验证 erlang方法一:1. 下载2. 将下载的Erlang服务上传到服务器上面3. 解压4. 编译erlang的依赖环境5. 安装Erlang…

[PyTorch][chapter 62][强化学习-基本概念]

前言: 目录: 强化学习概念 马尔科夫决策 Bellman 方程 格子世界例子 一 强化学习 强化学习 必须在尝试之后,才能发现哪些行为会导致奖励的最大化。 当前的行为可能不仅仅会影响即时奖赏,还有影响下一步奖赏和所有奖赏 强…

ADFS 高可用配置 + NLB配置(Windows网络负载均衡)

ADFS 高可用配置 NLB配置(Windows网络负载均衡) ADFS安装配置NLB配置节点 TEST-ADFS-01 网络负载平衡配置节点 TEST-ADFS-02 网络负载平衡修改CRM配置 ADFS实现高可用负载均衡有两种,主要是在数据库的选择方式: windows自带的内…

P36[11-1]SPI通信协议

SPI相比于IIC的优缺点: 1.SPI传输速度快(IIC高电平驱动能力较弱,因此无法高速传输) 2.使用简单 3.通信线多 SCK(SCLK,CK,CLK):串行时钟线 MOSI(DO):主机输出,从机输入 MISO(DI): 主机输入,从机输出 SS(NSS,CS):从机选择(有多少个从机,主机就要用几根SS分别与从机连接…