机器学习算法的另一个分支-贝叶斯算法原理(贝叶斯要解决什么问题)

目录

一、贝叶斯简介

二、贝叶斯要解决的问题

三、例子(公式推导)

四、实例

        1. 拼写纠正实例    

        2. 垃圾邮件过滤实例


一、贝叶斯简介

        1. 贝叶斯:英国数学家。1702年出生于伦敦,做过神甫。贝叶斯在数学方面主要研究概率论.对于统计决策函数、统计推断、统计的估算等做出了贡献。

        2. 贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章

        3. 生不逢时,死后他的作品才被世人认可。

二、贝叶斯要解决的问题

        正向概率:假设袋子里有N个白球,M个黑球,伸手去摸一个出来黑球的概率是多大?白球?

        学过统计学的都知道(正向概率):

p(white \;ball \;)=\frac{N}{N+M}\;\;p(black \;ball \;)=\frac{M}{N+M}

        逆向概率:如果我们事先并不知道袋子里的黑白球比例,而是闭着眼睛摸出一个或好几个球,观察这些取出来的球的颜色之后,我们可以就此对袋子里的黑白球的比例做出什么样的推测。

三、例子(公式推导)

        一个学校男生有60%,女生有40%,男生总是穿长裤,女生则一半穿长裤,一半穿长裙。

        正向概率:随机挑选一个学生,他(她)穿长裤的概率和穿长裙的概率是多大?

        逆向概率:迎面走来一条长裤,看不到其他地方,无法确定性别,那么推断出他(她)的概率是多大呢??

        解:假设学校里有U个学生

                穿长裤的(男生):

                        U*p(Boy)*p(Pants|Boy)

                其中:p(Boy)是男生的概率=60%,p(Pants|Boy)是条件概率=100%,所有男生穿长裤。

                穿长裤的女生:

                        U*p(Girl)*p(Pants|Girl)

                求解:穿长裤的人里面有多少男(女)生?

                穿长裤的总数:

                        U*p(Boy)*p(Pants|Boy)+U*p(Girl)*p(Pants|Girl)

               p(Pants|Girl)=U*p(Girl)*p(Pants|Girl)/穿长裤的总数

                p(Girl|Paints)=p(Pants|Girl)=U*p(Girl)*p(Pants|Girl)/U*p(Boy)*p(Pants|Boy)+U*p(Girl)*p(Pants|Girl)

                化简:把U约掉,分母其实就是P(Pants),分子其实就是P(Pants,Girl) 

                用统计学的话说:令随机选择一个女生的事件为A,概率为p(A)     

                                                令随机选择一个穿长裤的人为事件B,概率为p(B)

                        则:

p(A|B) = \frac{p(A)*p(B|A)}{p(B)}

                            这就是贝叶斯公式。

四、实例

        1. 拼写纠正实例    

                我们看到用户输入一个不在词典的单词,那么输入法根据用户习惯还是会给出正确的几个单词,输入法这里做了一个事情:“猜测这个家伙到底真正想要输入的单词是什么呢?”

        解:P(我们猜测他想输入的单词|他实际输入的单词)

                比如输入了一个  tha 正确的可能是the,than等等

                P1(the|tha)         P2(than|tha)   ......对此排序,显示。

                用户实际输入的单词记为:D(D即为观测数据)

                猜测1:p(h1|D),猜测2:p(h2|D),猜测3:p(h3|D).....

                统一为:p(h|D)

p(h|D)=p(h)*p(D|h)/p(D)   

                对于不同的具体猜测h1,h2,h3...p(D)都是一样的,所以在比较p(h1|D),p(h2|D)....我们可以把这个常数忽略掉。

                即:p(h|D)\propto p(h)*p(D|h)

                对于给定的观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior)”和“这个猜测生成我们观测的数据的可能性大小”

               

        结论:传统的机器学习的思想:极大似然函数,参数由数据决定

                    机器学习的另一个分支:贝叶斯公式,关注的先验条件(知识),关注数据对结果的影响。

        对于这个案例来说:p(h)先验概率:the,than就是在用户语料库中,进行词频统计,例如用户采用1000个词,the的概率1%,than的概率:0.1%。

                而p(tha|the)怎么算?这个可以由自己定制规则,the->tha做一次增删改查,than->tha做一次曾删改查,所以概率相同。

                得出p(the|tha)>p(tha|than)

        2. 垃圾邮件过滤实例

                问题:给定一封邮件,判定它是否属于垃圾邮件(类似于手机垃圾短信,系统自动识别放在垃圾短信中)   

                D来表示这封邮件,注意D是由N个单词组成。我们用 h+ 来表示垃圾邮件, h- 表示正常邮件。

        p(h-|D)=p(h-)*p(D|h-)/p(D)

                    p(h+|D)=p(h+)*p(D|h+)/p(D)           

        先验概率:p(h+),p(h-)这两个先验概率都是很好得出来的,只需要计算一个邮件库的垃圾邮件和正常邮件的概率即可。

        D里面含有N个单词d1,d2,d3....,p(D|h+)=p(d1,d2,...,dn|h+),就是说在垃圾邮件中出现根我们目前这封邮件一模一样的概率是多大???

        p(d1,d2,...,dn|h+)扩展为:p(d1|h+)*p(d2|d1,h+)*...*p(dn|d1,d2,...,dn-1,h+) 

          就是说这封邮件和垃圾邮件中的第一单词一样,这封邮件在和垃圾邮件中的第一单词一样的情况下,第二个单词一样的概率....我们发现这样算下去,太麻烦。

        提出朴素贝叶斯的概念:即每个特征之间是相互独立的,互不影响,这是一个强假设。用来化简的,我们想一想,真实的语言文本之间互不影响吗???当然不是,所以这样做并不能提升准确率。

        化简为:p(d1|h+)*p(d2|h+)*...*p(dn|h+)

        对于p(d1|h+)*p(d2|h+)*...*p(dn|h+)还采用在垃圾邮件中的词频统计方法即可。

       

                   

                

                

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/577653.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

『大模型笔记』提示工程、微调和RAG之间对比

提示工程、微调和RAG之间对比 文章目录 一. 提示工程、微调和RAG之间对比二. 参考文章文章:Prompt Engineering vs Finetuning vs RAG一. 提示工程、微调和RAG之间对比 Prompt EngineeringFinetuning

基于springboot的月子会所系统

摘 要 随着时代的进步,人们对生活的要求越来越高。月子基本是每一个生育期的母亲都要精力的一个特殊阶段,在中国人的传统观念中月子是一个非常重要的时期,只有在月子期间得到更好的照顾才能尽快的康复。传统的家庭一般都缺少月子期间对母婴照…

【干货分享】OpenHarmony轻量系统适配方案

1. 简介 本文在不改变原有系统基础框架的基础上, 介绍了一种OpenAtom OpenHarmony(以下简称“OpenHarmony”)轻量系统适配方案。 本方案使用的是 OpenHarmony v3.2 Release版本源码。 2. 方案设计 本文使用的硬件模块的主要特性及功能如…

4/1 背刺!春招B站一面,这些问题你都会吗?

❝ 下面我将分享一位同学在Bilibili一面的面试经历,对于这次面试,他的评价是,「很有难度」,你试试呢? ❞ 【提醒】通过这次面试经验,你将可以复习到以下知识点,注意汇总,不超过10个 …

git的使用日常习惯规范与一些特殊操作

git的使用日常习惯规范与一些特殊操作 操作习惯规范创建本地新分支,推送新分支到云端仓库1.创建一个本地的login分支2.创建新分支后切换到新分支3.推送新分支到云端 git的特殊操作撤回commit(取消提交到本地版本库的动作,本地工作区写的代码不…

c语言游戏实战(7):扫雷

前言: 扫雷是一款经典的单人益智游戏,它的目标是在一个方格矩阵中找出所有的地雷,而不触碰到任何一颗地雷。在计算机编程领域,扫雷也是一个非常受欢迎的项目,因为它涉及到许多重要的编程概念,如数组、循环…

考研数学一——概率论真题——自我总结题型整理(总分393)

系列文章目录 终于考完研了,本人考的是南京航空航天大学的仪器科学与技术,英一数一电路,以下是成绩单: 平时习惯整理自己的学习体系,以下是一个记录。 其实,每个人都应该训练,看到某一类题目…

【Unity】TextMeshPro富文本

启用富文本 在Unity里&#xff0c;如果需要使用富文本&#xff0c;首先需要开启Rich Text 如果不开启Rich Text&#xff0c;就会在UI上显示富文本代码 1.粗体 <b>Game</b> Over2.斜体 <i>Game</i> Over3.下划线 <u>Game</u> Over4…

4G/5G防爆布控球

#防爆布控球 #远程实时监控 #移动应急指挥 #高清图像采集 #防爆安全认证 4G/5G防爆布控球 M130-EX防爆布控球是针对石化装置、石油平台、燃气、化工、制药、煤炭、冶炼、船舶制造、纺织等易燃易爆环境及危险场所而开发设计的防爆智能一体化电气设备。 产品型号&#xff1a;M13…

CMS(内容管理系统)

一、系统的编写可以在开源网站上下载一个相关项目&#xff0c;然后做2次开发 企业建站系统:MetInfo(米拓)、蝉知、SiteServer CMs等; B2C商城系统:商派Shopex、ECshop、HiShop、XpShop等; 门户建站系统:DedeCMS(织梦)、帝国CMS、PHPCMS、动易、CmsTop等; 博客系统:WordPres…

【数据结构】新篇章 -- 顺序表

&#x1f308; 个人主页&#xff1a;白子寰 &#x1f525; 分类专栏&#xff1a;python从入门到精通&#xff0c;魔法指针&#xff0c;进阶C&#xff0c;C语言&#xff0c;C语言题集&#xff0c;C语言实现游戏&#x1f448; 希望得到您的订阅和支持~ &#x1f4a1; 坚持创作博文…

光伏智慧管理平台:全周期全流程光伏业务管理

随着光伏技术的快速发展和光伏电站规模的不断扩大&#xff0c;光伏业务的管理变得越来越复杂。为了提高管理效率、降低运营成本并提升光伏电站的运行效益&#xff0c;光伏智慧管理平台应运而生。本文将重点介绍光伏智慧管理平台的功能及其在全周期全流程光伏业务管理中的应用。…