人工智能原理复习--机器学习

文章目录

  • 上一篇
  • 机器学习概述
  • 归纳(示例)学习
  • ID3决策树算法
  • K近邻算法
  • 下一篇

上一篇

人工智能原理复习–搜索策略(二)

机器学习概述

学习系统的基本结构

环境
学习
知识库
执行



环境向系统的学习部分提供某些信息
学习利用这些信息修改数据库,以怎金系统执行部分完成任务的效能
执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分

最重要的因素是`环境向系统提供的信息

机器学习分类:

  • 监督学习:决策树、支持向量机(SVM)、k-临近算法(KNN)
  • 无监督学习:k-均值、DBSCAN密度聚类算法、最大期望算法
  • 强化学习:环境,奖励,状态 ,动作–> 状态奖励

归纳(示例)学习

归纳学习是一种通过观察和分析现象,发现其中规律和模式,并据此进行预测和决策的方法。归纳学习的基本思想是通过从数据样本中归纳出一般性规律或模式,从而实现对未知数据的预测和分类。

归纳学习是通过一系列的示例(正例和反例)出发,生成一个反映这些示例本质的定义:

  • 覆盖所有的正例,而不包含任何反例
  • 可用来指导对新例子的分类识别

归纳学习过程可以分为以下几个步骤:

  1. 数据采集:收集需要学习的数据样本。
  2. 特征提取:从数据样本中提取出有用的特征,用于归纳学习。
  3. 模型训练:使用归纳学习算法从数据样本中归纳出一般性规律或模式。
  4. 模型评估:使用测试数据对归纳模型进行评估,计算出模型的准确率和误差。
  5. 模型应用:使用归纳模型对新的数据进行分类或预测。

概念描述搜索及获取

  • 例子空间:所有可能的正例、反例构成的空间
  • 假设空间:所有可能的假设(概念描述)构成的空间
  • 顶层假设:最泛化的概念描述,不指定任何的特征值
  • 底层假设:最特化(具体)的概念描述,所有特征都给定特征值
  • 假设空间的搜索方法:1、特化搜索(宽度优先,自顶向下) 2、泛化搜索(宽度优先,自底向上) 3、双向搜索(版本空间法)

ID3决策树算法

信息的定量描述
衡量信息多少的物理量称为信息量:

  • 若概率很大,受信者事先已有所估计,则该消息信息量就很小
  • 若概率很小,受信者感觉很突然,该信息所含信息量就很大

使用信息量函数 f ( p ) f(p) f(p)描述, f ( p ) f(p) f(p)条件:

  • f ( p ) f(p) f(p) 应是p的严格单调递减函数
  • 当p = 1时, f ( p ) = 0 f(p) = 0 f(p)=0, 当p = 0时, f ( p ) = ∞ f(p) = \infty f(p)=
  • 当两个独立事件的联合信息量应等于他们分别的信息量之和

信息量定义 :若一个消息 x x x 出现的的概率为 p p p, 则这一消息所含信息量为:
I = − log ⁡ p I = - \log{p} I=logp

单位:

  • 以2为底,单位 b i t bit bit (常用)
  • 以e为底,单位 n a t nat nat
  • 以10为底,单位 h a r t hart hart

信息熵
所有可能消息的平均不确定性,信息量的平均值
H ( X ) = − ∑ p ( x i ) log ⁡ ( p ( x i ) ) H(X) = -\sum{p(x_i)\log{(p(x_i))}} H(X)=p(xi)log(p(xi))

在这里插入图片描述
定义:

  • M ( C ) M(C) M(C) 为根节点总的信息熵
  • B ( C , A ) B(C, A) B(C,A) 为根据A属性分类后的加权信息熵的和,每一类占全部的比例作为加权,将分完之后的信息熵加权求和
  • g a i n = M ( C ) − B ( C , A ) gain = M(C) - B(C,A) gain=M(C)B(C,A)信息增益,信息增益越大越好

分别求出每个属性的信息增益,然后将最大的作为这个节点的分类属性

步骤:

  1. 首先求出根节点的信息熵
  2. 然后按每个特征求出对应的信息增益
  3. 比较得出最大的信息增益的特征作为给节点的划分属性
  4. 循环1-3步直到将全部类别分开,或者划分比例达到要求值

d在这里插入图片描述
ID3算法
优点:

  1. 计算复杂度不高
  2. 输出结果易于理解
  3. 可以处理不相关特征数据

缺点:

  1. 不能处理带有缺失值的数据集
  2. 在进行算法学习之前需要对数据集中的缺失值进行预处理
  3. 存在过拟合问题

K近邻算法

一种监督学习分类算法,没有学习过程,在分类时通过类别已知的样本对新样本的类别进行预测。

基本思路:

  1. 通过以某个数据为中心,分析离其最近的K个邻居的类型,获得该数据可能的类型
  2. 以少数服从多数的原理,推断出测试样本的类别

只要训练样本足够多,K近邻算法就能达到很好的分类效果

在这里插入图片描述

  • 当K = 3时,即选择最近的3个点,由于三角形样本所占近邻样本的比例为2/3,于是可以得出圆形输入实例应该为三角形
  • 当K = 5时,由于长方形样本栈近邻样本比例为3/5,此时测试样本被归为长方形类别。

步骤:

  1. 计算测试数据与每个训练数据之间的距离
  2. 按照距离的递增关系进行排序
  3. 选取距离最小的k个点
  4. 确定前k个点所在类别的出现频率
  5. 返回前k个点中出现频率最高的类别做为测试数据的预测分类

优点:

  • 简单,便于理解和实现
  • 应用范围广
  • 分类效果好
  • 无需进行参数估计

缺点:

  • 样本小时误差难以估计
  • 存储所有样本,需要较大存储空间
  • 大样本计算量大
  • k的取值对结果也有较大影响(k较小对噪声敏感,k过大可能包含别的类样本)

下一篇

未完待续

`

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/264288.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CV计算机视觉每日开源代码Paper with code速览-2023.12.5

点击计算机视觉,关注更多CV干货 论文已打包,点击进入—>下载界面 点击加入—>CV计算机视觉交流群 1.【基础网络架构:Transformer】GIFT: Generative Interpretable Fine-Tuning Transformers 论文地址:https://arxiv.org…

pytorch中的归一化:BatchNorm、LayerNorm 和 GroupNorm

1 归一化概述 训练深度神经网络是一项具有挑战性的任务。 多年来,研究人员提出了不同的方法来加速和稳定学习过程。 归一化是一种被证明在这方面非常有效的技术。 1.1 为什么要归一化 数据的归一化操作是数据处理的一项基础性工作,在一些实际问题中&am…

【参天引擎】华为参天引擎内核架构专栏开始更新了,多主分布式数据库的特点,类oracle RAC国产数据开始出现了

cantian引擎的介绍 ​专栏内容: 参天引擎内核架构 本专栏一起来聊聊参天引擎内核架构,以及如何实现多机的数据库节点的多读多写,与传统主备,MPP的区别,技术难点的分析,数据元数据同步,多主节点的…

Html转PDF,前端JS实现Html页面导出PDF(html2canvas+jspdf)

Html转PDF,前端JS实现Html页面导出PDF(html2canvasjspdf) 文章目录 Html转PDF,前端JS实现Html页面导出PDF(html2canvasjspdf)一、背景介绍二、疑问三、所使用技术html2canvasjspdf 四、展示开始1、效果展示…

【基于Flask、MySQL和Echarts的热门游戏数据可视化平台设计与实现】

基于Flask、MySQL和Echarts的热门游戏数据可视化平台设计与实现 前言数据获取与清洗数据集数据获取数据清洗 数据分析与可视化数据分析功能可视化功能 创新点结语 前言 随着游戏产业的蓬勃发展,了解游戏销售数据对于游戏从业者和游戏爱好者都至关重要。为了更好地分…

FFmpeg抽取视频h264数据重定向

根据视频重定向技术解析中的 截获解码视频流的思路,首先需要解决如何输出视频码流的问题。 目前只针对h264码流进行获取,步骤如下: 打开mp4文件并创建一个空文件用于存储H264数据 提取一路视频流资源 循环读取流中所有的包(AVPacket),为…

西南科技大学数字电子技术实验三(MSI逻辑器件设计组合逻辑电路及FPGA的实现)FPGA部分

一、实验目的 进一步掌握MIS(中规模集成电路)设计方法。通过用MIS译码器、数据选择器实现电路功能,熟悉它们的应用。进一步学习如何记录实验中遇到的问题及解决方法。二、实验原理 1、4位奇偶校验器 Y=S7i=0DiMi D0=D3=D5=D6=D D1=D2=D4=D7= `D 2、组合逻辑电路 F=A`B C …

【亲测有效】支持横竖屏 微信小程序video禁止进度条拖动,微信小程序遮罩进度条,

背景&#xff1a;部分课程禁止客户拖动视频进度条直至播放结束 红色是遮罩区域遮罩区域 实际遮罩效果&#xff08;有一个很浅的阴影区域&#xff09; 实现代码 .wxml文件 <video enable-progress-gesture"false" ><cover-view class"cover">…

hdlbits系列verilog解答(mt2015_q4)-54

文章目录 一、问题描述二、verilog源码三、仿真结果一、问题描述 本次使用系列文章52和53中实现的子模块,实现以下组合逻辑电路。 二、verilog源码 module top_module (input x, input y, output z);wire [3:0

操作系统笔记——储存系统、文件系统(王道408)

文章目录 前言储存系统地址转换内存扩展覆盖交换 储存器分配——连续分配固定大小分区动态分区分配动态分区分配算法 储存器分配——非连续分配页式管理基本思想地址变换硬件快表&#xff08;TLB&#xff09;多级页表 段式管理段页式管理 虚拟储存器——基于交换的内存扩充技术…

java之SpringBoot开发实用篇

MENU SpringBoot开发实用篇KF-1.热部署KF-1-1.手动启动热部署KF-1-2.自动启动热部署KF-1-3.参与热部署监控的文件范围配置KF-1-4.关闭热部署 KF-2.配置高级KF-2-1.ConfigurationPropertiesKF-2-2.宽松绑定/松散绑定KF-2-3.常用计量单位绑定KF-2-4.校验KF-2-5.数据类型转换 KF-3…

GoLong的学习之路,进阶,微服务之使用,RPC包(包括源码分析)

今天这篇是接上上篇RPC原理之后这篇是讲如何使用go本身自带的标准库RPC。这篇篇幅会比较短。重点在于上一章对的补充。 文章目录 RPC包的概念使用RPC包服务器代码分析如何实现的&#xff1f;总结Server还提供了两个注册服务的方法 客户端代码分析如何实现的&#xff1f;如何异步…