人工智能之机器学习基础——贝叶斯(Bayesian Methods)

news/2024/11/20 18:40:27/文章来源:https://www.cnblogs.com/zhoushusheng/p/18558993

贝叶斯分类器

贝叶斯分类器是一类基于贝叶斯定理的统计学习方法,广泛应用于分类问题。其核心思想是通过计算后验概率 P(y∣x),将输入样本 x 分类到具有最大后验概率的类别。

1. 贝叶斯定理

贝叶斯定理是概率论中的基本法则,用于描述条件概率的关系:

 

其中:

  • P(y∣x):在已知 x的情况下,y 属于某类的概率(后验概率);
  • P(x∣y):在已知 y 属于某类的情况下,x 出现的概率(似然函数);
  • P(y)y 属于某类的概率(先验概率);
  • P(x)x 出现的概率(证据)。

2. 贝叶斯分类器的思想

目标

对于一个输入样本 x,分类器通过计算每个类别的后验概率 P(y∣x),选择后验概率最大的类别:

通过贝叶斯定理展开:

 由于 P(x) 对所有类别相同,只需比较 P(x∣y)的大小。

贝叶斯分类器的假设

  • 朴素贝叶斯分类器假设特征条件独立:

 

3. 贝叶斯分类器的步骤

  1. 计算先验概率 P(y)

    • 统计每个类别在数据集中的频率。
  2. 计算条件概率 P(xi∣y)

    • 对于每个类别 y,计算每个特征 xi 在类别 y下的条件概率。
  3. 计算后验概率 P(y∣x)

    • P(x∣y) 结合,计算后验概率。
  4. 分类决策

    • 选择最大后验概率的类别。

 

4. 示例

4.1 问题描述

假设我们有以下训练数据,目标是根据天气和风速预测是否适合运动。

天气风速是否适合运动
晴天
晴天
多云
雨天
雨天
多云

目标是预测样本 x=(晴天,弱)是否适合运动。

4.2 步骤

(1) 计算先验概率 P(y)
  • 类别“是”的样本数:4;
  • 类别“否”的样本数:2;
  • 总样本数:6。

    P()=4/6=0.667,P()=2/6=0.333

(2) 计算条件概率 P(x∣y)

P(晴天):

  • 在类别“是”中,天气为“晴天”的样本有 1 个;
  • 在类别“是”中总共有 4 个样本;

    P(晴天∣是)=1/4=0.25

  • P(晴天∣否)

    • 在类别“否”中,天气为“晴天”的样本有 1 个;
    • 在类别“否”中总共有 2 个样本;
      P(晴天∣否)=1/2=0.5
  • P(弱∣是)

    • 在类别“是”中,风速为“弱”的样本有 3 个;
    • 在类别“是”中总共有 4 个样本;
      P(弱∣是)=3/4=0.75
  • P(弱∣否)

    • 在类别“否”中,风速为“弱”的样本有 0 个;
      P(弱∣否)=0/2=0
 
(3) 计算后验概率 P(y∣x)

对于类别“是”:

P(是∣晴天,弱)∝P(晴天∣是)⋅P(弱∣是)⋅P(是)
P(晴天,)0.250.750.667=0.125

对于类别“否”:

P(否∣晴天,弱)∝P(晴天∣否)⋅P(弱∣否)⋅P(否)
P(晴天,)0.500.333=0
(4) 分类决策
P(是∣晴天,弱)=0.125>P(否∣晴天,弱)=0

因此,样本 x=(晴天,弱)的预测结果是“是”。

The symbol "∝" represents proportionality in mathematics. When you see a∝b, it means that a is proportional to bbb, or a=k⋅ba = k \cdot ba=kb, where kkk is a constant of proportionality.

For example:

  • If F∝x, then F=kx for some constant kkk.
  • Proportionality often indicates that as one variable changes, the other changes in a consistent way (e.g., doubling b will double a if a∝ba ).

5. 优缺点

优点

  1. 简单高效:计算简单,适合大规模数据。
  2. 易于解释:基于概率,结果直观。
  3. 适合离散数据:对于类别型特征表现良好。

缺点

  1. 条件独立性假设:假设特征条件独立,在实际问题中可能不成立。
  2. 零概率问题:如果某个条件概率为零,会导致整体概率为零(可通过平滑解决)。
  3. 对连续特征不够友好:需要额外处理(如用高斯分布拟合)。

6. 常见应用

  • 文本分类(如垃圾邮件过滤)。
  • 医学诊断。
  • 客户分类和信用风险评估。

贝叶斯分类器以其简洁高效的特点,成为机器学习中的重要基础方法之一,特别是在特征独立性假设近似成立的场景中表现突出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/837461.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024.11.20 NOIP模拟 - 模拟赛记录

异或(xor) 每次所加三角形的范围如图所示:这道题做法较多,我是通过两组差分与前缀和来做的。 首先需要一个三角形差分,使每一次在差分数组中修改时,影响到的范围是一个三角形,比如这样(红色点为 \((x,y)\),即 \((r,c)\)):假设我们真正需要修改的三角形是橙色部分:那…

实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾

在本届 RTE2024 大会上,来自产业界和学术界的多位专家深入探讨了实时互动和大模型技术的最新进展及其潜在应用。西湖心辰联合创始人俞佳、声网 AI 算法工程师乔齐、MiniMax 资深音频算法专家张博闻、商汤科技数字文娱解决方案负责人焦文奎以及面壁智能算法 VP 翟忠武等分享了他…

vscode主题美化

vscode 主题美化 主题使用Tokyo Night由于我在用rust的时候发现其对一些变量的颜色不太好看,所以自己又在设置中改了一点"editor.tokenColorCustomizations": {...."[Tokyo Night]": { // or "[Tokyo Night Storm]""textMateRules": […

2024.11.20总结

1本文于 github 博客同步更新。 A: 一个数可以被操作当且仅存在一列的顶部元素为它且存在一列的底部元素为它,初始扫一遍,将合法的元素以顶部所在列为关键字扔到小根堆里,每次找到最小的元素添加,然后检查将新露出来的元素是否存在匹配,若结束时未填完即为无解。 B: 要么…

ABAP 日期计算

RP_CALC_DATE_IN_INTERVAL 日期函数2 FIMA_DATE_CREATE 有问题 在2月份计算有问题 慎用 计算两个日期月份 FIMA_DAYS_AND_MONTHS_AND_YEARS

群晖NAS维修数据恢复

一台群晖NAS,开机状态灯是黄灯,DISC4也是亮黄灯,机器一直在报警。 群辉型号DS415+,是一种典型的硬盘损坏的情况,这是一台四盘位的一个群辉NAS,第一时间把每个硬盘取下来编个编号,WD的红盘也就是nasVR专用硬盘,型号是WD401F2X的,生产日期有三块是2015年,有一块是比较新…

实景三维技术在基层社会治理中的数智化应用

在推进国家治理体系和治理能力现代化的进程中,基层社会治理的数字化转型尤为关键。实景三维技术,以其直观、精准的空间信息表达能力,正在成为基层社会治理的有力工具。本文将探讨实景三维技术如何在“地、房、人、用、管”五个维度赋能基层社会治理。一、实景三维技术简介实…

Nginx服务器配置---反向代理服务时proxy_pass的转发规则

nginx是由俄罗斯开发的一款http web服务器,我们经常用这款服务器做负载均衡和反向代理。今天我们就来聊聊Nginx作为反向代理时,如何进行路由配置。假设你已经部署好Nginx了,我们进入Nginx安装目录,进入nginx.conf文件。找到http节点下的server节点,值是一个json。在json中…

less 全局变量使用 引用

参考链接: https://blog.csdn.net/qq_42493241/article/details/120021001 照搬成功 (以防链接失效截图)

Ablations

消融实验(ablation study)是什么? 太长不看版: 说白了就是设立对照组/控制变量法的意思,通过去除/增加某个模块的作用,来证明该模块的必要性,如果消融实验后得到性能结果大幅变化,说明该模块起到了作用。—————————————————————————— 严谨版: …