贝叶斯公式中的先验概率、后验概率、似然概率

在这里插入图片描述

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。关注公粽号 《机器和智能》 回复关键词 “python项目实战” 即可获取美哆商城视频资源!


博主介绍:
CSDN博客专家,CSDN优质创作者,CSDN实力新星,CSDN内容合伙人;
阿里云社区专家博主;
华为云社区云享专家;
51CTO社区入驻博主,掘金社区入驻博主,支付宝社区入驻博主,博客园博主。


贝叶斯公式中的先验概率、后验概率、似然概率

    • 贝叶斯公式(bayes)
    • 先验概率(prior probability)
    • 后验概率(posterior probability)
    • 似然概率(likelihood)


专栏:《贝叶斯估计》


贝叶斯公式(bayes)

首先给出贝叶斯(bayes)公式

在这里插入图片描述

贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。

贝叶斯推断的过程通常是这样的:首先,我们有一个未知随机变量的先验分布。然后,我们需要确定观测数据的分布模型,这是一个基于随机变量的条件概率。一旦我们观察到了数据的一个特定值之后,我们就可以开始运用贝叶斯法则去计算随机变量的后验分布。如果是连续型的随机变量,就把上面的概率质量函数替换成概率密度函数就可以了。

贝叶斯方法的核心就是通过先验知识不断更新后验概率密度来分析参数的可能性分布。如果继续进行实验,之前的后验概率密度就变成了先验知识,这样最终就会越来越接近参数的真实分布。需要注意的是,一般来讲如果当前的样本量比先验知识的样本量大很多,那么先验知识就可以忽略不计。另外还有一种先验知识并不是基于早期试验,而是专家意见,这种情况下也可以将其转换为先验概率密度。

先验概率(prior probability)

先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现的概率。在贝叶斯统计中,某一不确定量p的先验概率分布是在考虑“观测数据”前,能表达p不确定性的概率分布。它旨在描述这个不确定量的不确定程度,而不是这个不确定量的随机性。这个不确定量可以是一个参数,或者是一个隐含变量(latent variable)。

也就是说,先验概率是不依靠观测数据的概率分布,也就是与其他因素独立的分布。或者说,先验概率是先于某个事件发生就知道的概率,可以简单理解为经验丰富的专家所进行的纯主观估计(猜测)。以在黑盒中取球为例,假设盒中有9个白球,1个黑球,随机取一个球,拿到的白球的概率是 P(白)=0.9,拿到黑球的概率是 P(黑)0.1,这就是先验概率。

另外,如果利用过去历史资料计算得到的先验概率,称为客观先验概率;如果历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。 先验概率是通过古典概率模型来定义的,所以也叫做古典概率。古典概率模型要求满足两个条件:试验的所有可能结果是有限的;每一种可能结果出现的可能性(概率)相等。

后验概率(posterior probability)

后验概率(posterior probability)是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

也就是说,后验概率是根据贝叶斯(bayes)定理,用先验概率和概率密度函数计算出来的。即”先验概率+观测=后验概率“,通过观测对先验概率更新后即为后验概率。同样以前面提到的黑盒取球为例,后验概率就是在我们已经拿出一个球,以随机变量 x 表示,此时,该球是白球的概率 P(黑|x)就是后验概率。同理,P(黑|观测)和P(白|观测)都是后验概率。

从上面可以看出, 先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。

总结来说,后验概率是在已知”果“的前提下,得到重新修正后的”因“的概率,后验概率也叫做条件概率,可以通过贝叶斯公式来求解。

这里要额外介绍一下最大后验概率(Maximum a posteriori estimation, MAP),最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计(Maximum likelihood estimation, MLE)类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。

似然概率(likelihood)

在统计学中,似然函数(likelihood function)是一种关于统计模型参数的函数,也称作似然。给定输出 x 时,关于参数 θ 的似然函数 L(θ|x)(在数值上)等于给定参数 θ 后变量 X 的概率: L(θ|x)=P(X=x|θ) 。在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性(likelihood)。

似然函数在统计推测中发挥重要的作用,因为它是关于统计参数的函数,所以可以用来评估一组统计的参数,也就是说在一组统计方案的参数中,可以用似然函数做筛选。

似然概率其实很好理解,就是说我们现在有一堆数据,现在需要构建一组参数对这些数据建模,以使得模型能够尽可能地拟合这些数据。所以我们要做的就是从很多组参数中选出一组使得模型对数据的拟合程度最高,所以也常常说最大似然概率。

注意“似然”与“概率”意思相近,都是指某种事件发生的可能性,在非正式的语境下,“似然”会和“概率”混着用。但是严格区分的话,在统计上,二者是不同的。不同就在于,观察值 x 与参数 θ 的不同的角色。概率是用于描述一个函数,这个函数是在给定参数值的情况下的关于观察值的函数。而似然是用于在给定一个观察值时,关于用于描述参数的情况。在统计学中,“似然”和“概率”有着明确的区分:“概率”描述了给定模型参数后,描述结果的合理性,而不涉及任何观察到的数据;“似然”描述了给定了特定观测值后,描述模型参数是否合理。比如说抛掷硬币,我们抛掷一枚”均匀“的硬币,总共抛10,有五次为正面的可能性就是概率;如果已经抛了10次,其中5次为正面,那么这枚硬币”均匀“的可能性就是似然。

这里不得不提一下统计学中的两大学派了

频率派:频率派认为样本信息来自总体,通过对样本信息的研究可以合理地推断和估计总体信息。频率派的核心思想是基于大样本理论,将概率看作频率的极限,以样本观测值的频率为基础进行推断。频率派注重数据的重复抽样和统计量的性质,比如点估计、置信区间和假设检验等。频率派认为参数是客观存在的,不会改变,虽然未知,但却是固定值。最典型的便是极大似然估计(MLE)。

贝叶斯派:贝叶斯派认为任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。贝叶斯派的核心思想是先验信息与后验信息相结合,通过贝叶斯公式将先验信息与样本数据进行结合,得到后验分布,并以此作为对未知参数的推断。贝叶斯派强调主观先验信息的引入,因此不同人可能会有不同的先验分布,从而导致不同的推断结果。贝叶斯派注重个体的主观判断和背景信息,更加灵活和主观。最典型的便是最大后验估计(MAP)。


在这里插入图片描述
在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/620395.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql的下载、安装

首先进入官网:MySQL 点击“downloads”进入下载界面 2.往下滑动滚轮,点击“mysql community...(公开版)” 3.往下滑,找到并单击“install for Windows” 4.选择版本:初学者可以使用较低版本,较…

API网关工具Kong或nginx ingress实现对客户端IP的白名单限制,提高对外服务的访问安全

一、背景 部署在生产环境的应用,供内部服务调用外,还需要暴露外网访问。 比如consul ui管理界面,我们需要给到开发和测试人员,观察服务的注册情况。 再比如前端页面和后端接口在一起的服务,后端接口供内部服务接口调用…

项目文章 | Nature Commun细菌转录因子ChIP-seq揭示第二信使2‘,3‘-cGMP的新调控机制

转录因子是细菌中调控基因表达的关键蛋白质,它们能够识别并结合到DNA的特定序列上,从而启动或抑制基因的转录。细菌ChIP-seq可以帮助我们理解细菌中转录因子的调控网络,揭示其在细菌生长、代谢和适应环境等方面的作用。这种技术对于研究细菌的…

2024第十五届蓝桥杯 JAVA B组

目录 前言:试题 A: 报数游戏试题 B: 类斐波那契循环数试题C:分布式队列 前言: 没参加这次蓝桥杯算法赛,十四届蓝桥杯被狂虐,对算法又爱又恨,爱我会做的题,痛恨我连题都读不懂的题😭,十四届填空只…

龙蜥社区「人人都可以参与开源」——开源之路心得体会

在龙蜥社区的开源活动中,我深刻体会到了开源精神的伟大与力量。作为一个新手,一开始我对于如何参与开源活动感到有些迷茫,但通过龙蜥社区的引导和帮助,我找到了自己的方向,走上了开源之路。 龙蜥社区的开源活动是真正…

docker run启动一个开发备忘清单速查表 —— 筑梦之路

docker run -itd --name reference -p 3000:3000 registry.cn-beijing.aliyuncs.com/deanmr/reference:latest包含:运维,前端,后端,工具,命令,数据库 部分截图展示:

每天五分钟深度学习:逻辑回归算法的损失函数和代价函数是什么?

本文重点 前面已经学习了逻辑回归的假设函数,训练出模型的关键就是学习出参数w和b,要想学习出这两个参数,此时需要最小化逻辑回归的代价函数才可以训练出w和b。那么本节课我们将学习逻辑回归算法的代价函数是什么? 为什么不能平方差损失函数 线性回归的代价函数我们使用…

【嵌入式】交叉编译指南:将开源软件带到嵌入式世界

🧑 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向的学习指导…

公众号文章的制作方法和步骤分享,纯干货!

无论是个人还是企业,都需要通过公众号来传递自己的声音和价值。如何制作一篇高质量的公众号文章呢?本文伯乐网络传媒将详细介绍公众号文章的制作方法和步骤。 一、文章类型概述 1. 图文教程:以图文结合的方式,向读者传授知识和技…

P1712 [NOI2016] 区间(线段树 + 贪心 + 双指针)

题目描述 在数轴上有 n 个闭区间从 1 至 n 编号,第 i 个闭区间为 [li​,ri​] 。 现在要从中选出 m 个区间,使得这 m 个区间共同包含至少一个位置。换句话说,就是使得存在一个 x ,使得对于每一个被选中的区间 [li​,ri​]&#…

DFS专题:力扣岛屿问题(持续更新)

DFS专题:力扣岛屿问题 一、岛屿数量 题目链接: 200.岛屿数量 题目描述 代码思路 使用深度优先搜索,对每一个网格点进行判断,如果为未搜索过的’1’,则使岛屿数加一,并将与其相连的‘1’都进行标记,确保…

企业为什么要做等级保护

一、等级保护是我国关于网络安全的基本政策 《国家信息化领导小组关于加强信息安全保障工作的意见》(中办发[2003]27 号,以下简称“27 号文件”)明确要求我国信息安全保障工作实行等级保护制度,提出“抓紧建立信息安全等级保护制度&#xff…