机器学习期末复习

机器学习

    • 选择题
    • 名词解释:
    • 简答题
    • 计算题
      • 一、线性回归
      • 二、决策树
      • 三、贝叶斯

选择题

  1. 机器学习利用经验 ,须对以下()进行分析
    A 天气 B 数据 C 生活 D 语言

  2. 归纳偏好值指机器学习算法在学习的过程中,对以下()的偏好
    A 数据 B 某种类型假设 C 标记 D 运行速度

  3. 有的情况下 ,模型学习到了训练数据满足的特有性质,但这些性
    质不是一般规律,这种现象被称为()
    A 欠拟合 B 过拟合 C 欠配 D 以上三个选项都不是

  4. 最小二乘法估计 得到的线性回归模型 满足()性质
    A 均方模型为 0 B 均方误差偏大 C 均方误差偏小 D 均方误差为 1

  5. 下列()是决策树的预测过程。
    A 将测试示例从一个中间节点开始,沿着划分属性所构成的“判
    定测试序列”下行,知道叶节点、
    B 将测试实例从一个中间节点开始,沿着划分属性所构成的“判
    定测试序列”上行,直到根节点。
    C 将测试示例从叶节点开始,沿着划分属性 所构成的“判定测试
    序列”上行,直 到根节点。
    D 将测试示例从根节点开始,沿着划分属性所构成的“判定测试
    序列”下行,直到叶节点。

  6. BP 算法基于()策略对参数进行调整
    A 梯度下降 B 梯度上升 C 最小化误差 D 误差逆传播

  7. 当训练样本线性不可划分时可采用()来缓解和解决
    A 增加正例样本 B 核函数 C 训练误差最小 D 测试误差最小

  8. 朴素贝叶斯分类器中,对给定类别,模型对所有属性间的独立性
    有()
    A 部分不独立 B 部分独立 C 相互不独立 D 相互独立

  9. KNN(L 近邻算法)属于一种典型的()算法
    A 监督学习 B 无监督学习 C 半监督学习 D 弱监督

  10. 缓解维数灾难的操作是()
    A 降维 B 升维 C 低维度嵌入 D 流型处理

  11. 决策树属于()模型。-
    A.判别式 B.生成式 C.判别式和生成式 D.以上都不对

  12. 先对联合概率分布P(x, c)建模,再由此获得P(clx),属于()模型。
    A.判别式 B.生成式 C.回归 D. 以上都不是

  13. 贝叶斯公式中,估计后验概率P(c|x)的主要困难在于估计()。
    A. P(c) B. P(x|c) C.以上两者都是 D.以上两者都不是

  14. 下列()方法可以用来获得从原始数据集中划分出“测试集”?
    A.留出法 B.交叉验证法 C.自助法 D.以上三个选项都可以

  15. 在训练集上的误差被称作()
    A.泛化误差 B.经验误差 C.测试误差 D.以上三个选项都不对

  16. 当西瓜收购公司去瓜摊l收购西瓜时既希望把好瓜都收走J尽可能的少,请问他应该考虑()评价指标?
    A.精度 B.查全率 C.查准率 D.F1度量

  17. 信息嫡是度量样本集合()最常用的一种指标。
    A.纯度 B.对称差 C.大小 D.重要性

  18. 在属性划分中,信息增益越大,结点的纯度( )。
    A.不变
    B.变为零
    C.提升越大
    D.降低越快

  19. 剪枝是决策树学习算法对付()现象的主要手段。
    A.标记噪声
    B.数据少
    C.过拟合
    D.欠拟合

  20. 多层感知机表示异或逻辑时最少需要()个隐含层(仅考虑二元入)。
    A. 1 B. 2 C. 3 D. 4

答案:BBBCD ABDAA ABBDB DACCB

名词解释:

  1. 奥卡姆剃刀原则: 是一种科学原则,在解释现象时,应该选择最简单的解释和假设
  2. 归纳偏好: 是指在遇到不完全信息或不确定性情况下,人们对于潜在解释或假设的倾向和偏好
  3. 线性模型: 是一种常见的机器学习模型,用于建立输入特征与输出变量之间的线性关系
  4. 线性回归:是一种常见的线性模型,用于建立输入特征与连续输出变量之间的线性关系
  5. 最小二乘法: 是一种常用的拟合方法,最小化预测值与真实值之间的残差平方和来确定模型的参数
  6. 类别不平衡: 是指在分类问题中,不同类别的样本数量存在较大差异
  7. 决策树: 是一种常见的机器学习算法,主要用于回归和分类任务,通过创建一个树形结构,将复杂的任务分解成一系列简单的决策分支,进而解决复杂的分类和回归问题。通常用于有监督的学习,可以训练数据集进行学习和预测
  8. 神经网络: 是一种模拟脑部神经系统的模型,由大量人工神经元相互连接构成。通过模拟神经元之间的连接和信息传递来实现复杂的信息处理,神经元之间连接的权重可以通过学习算法来进行调整,以使得神经网络可以学习和适应不同的任务和数据
  9. 间隔(margin): 是指支持向量机中分类器的决策边界与最近的分类样本之间的距离,间隔越大,泛化能力越强
  10. 贝叶斯决策论:是一种基于概率统计理论的决策方法,通过计算不同决策的期望损失来选择最优的决策,用于处理分类问题
  11. 急切学习: 一种机器学习的方法,在训练阶段就构造一个模型进行学习,并用它进行预测
  12. 懒惰学习:与急切学习相反

简答题

1.机器学习:
是人工智能的一种分支,让计算机从数据中学习和改进,以完成某种任务,目标是让计算机在经验中学习,自动发现模式和规律,并运用规律进行预测和决策

2.过拟合及缓解方法:
指模型在训练数据集上表现良好,但在新数据或测试集上表现不好的现象。通常是由于模型过于复杂,使得模型在训练的过程中过分注重与特定细节,而没有真正掌握数据的底层结构和一般规律
缓解方法:增加训练数据量,提供更多的数据样本供模型学习,减少过拟合的风险;降低模型的复杂度,减少模型的自由度;或者通过正则化限制模型的学习能力

3.有监督和无监督学习:
有监督的学习是指模型在训练数据中,每个样本都有对应的标签和目标输出,模型通过学习输入与输出的映射关系进行预测和决策
无监督的学习是指模型在训练数据中,每个样本没有对应的标签和目标输出,模型通过学习数据的内在结构和相似性进行聚类、降维或异常检测等任务

4.查准率和查全率:
查准率又称精确率,是指在预测为正类的样本中真正类所占的比例,衡量分类模型在某一分类预测上的准确性。
查全率又称召回率,是指在实际为正类的样本中真正类所占的比例,衡量分类模型在某一分类预测上的完整性。

5.P-R曲线怎么对学习器进行比较
P-R曲线是以P查准率为横轴,R查全率为纵轴绘制的曲线。通过改变分类的阈值来得到不同的P-R点,比较不同学习器的性能,可以通过曲线下的面积AUC,越接近1越好,或者F1-score来判断

6.真正例率和假正例率
真正例率(TPR)是表示实际为正例的样本中被正确预测为正例的比例,TPR=TP/TP+FN
假正例率(FPR)是表示实际为负例的样本中 被错误预测为正例的比例,FPR=FP/FP+TN

7.简述线性判别分析LDA
LDA的主要思想是选择一个投影方向,将数据投影,使得相同类别的数据尽可能紧凑,不同类别的数据尽可能分开
步骤:①计算类内散度矩阵和类间散度矩阵
②计算投影方向
③降维

8.决策树对过拟合的主要手段是什么?该手段的优缺点是什么?
主要手段是剪枝
预剪枝的优点是计算效率高和避免过拟合,缺点是容易信息丢失,导致欠拟合
后剪枝的优点是包括更好的泛化能力和不容易欠拟合,缺点是计算开销大,容易过拟合

9.简述M-P神经元模型的组成及每一部分的作用
M-P神经元是由输入部分和激活函数构成
输入部分接收外部输入信号,并赋予每个输入相应的权重
激活函数会根据输入信号的加权和是否超过神经元的阈值来决定是否激活神经元

10.神经网络对于过拟合的有效手段
正则化,通过在损失函数中加入正则化,如L1正则化或L2正则化,以惩罚模型的复杂度,防止模型过度拟合数据
早停法,通过在训练中监控验证集的性能表现,当模型性能不再提升时,停止训练,防止模型过度拟合数据

11.卷积神经网络CNN的结构和作用
输入层:接收原始数据
卷积层:提取特征
激活函数:增加非线性
池化层:减少特征图尺寸
全连接层:将特征进行分类和回归
卷积神经网络结构有:输入层、卷积层、激活函数、池化层、全连接层

12.支持向量机的基本型和稀疏性解释
包括线性SVM和非线性SVM,=> min w,b 1/2||w||²
基本型
稀疏性指在训练数据时,只有少量数据成为支持向量,只有少数样本对模型有影响作用

13.朴素贝叶斯分类器和半朴素贝叶斯分类器区别
区别在于两者对于数据样本处理的特征依赖关系不同,朴素贝叶斯分类器假设特征之间相互独立;
半朴素贝叶斯分类器允许特征之间存在一定的依赖关系

14.聚类算法和性能度量
聚类算法将数据样本划分为不同的类别或簇,不同类别的样本相似度较高,同一类别的相似度较低。性能度量是检测聚类算法的质量,包括聚类准确度、轮廓系数等,聚类准确度是指分类正确的样本占样本总数的比例,轮廓系数是指簇内紧密度和簇间分离度的平衡程度

计算题

一、线性回归

(1)什么是“线性回归”目的?
找到一条直线或一个平面或更高维的超平面,使得预测值与真实值之间的误差最小化。
(2)给出单一属性的线性回归目标函数。
在这里插入图片描述
(3)若用最小二乘法求解线性回归模型,给出最小二乘法的闭式解(w和b)及其推导过程。

线性回归

二、决策树

(1)简述决策树学习的目标,并列举两种度量样本集合纯度最常用的指标。
目标:在训练数据集上构建一棵决策树,使得该决策树能够对新的未知数据进行分类或回归预测,同时保证分类或预测的准确性。
指标举例:基尼指数、信息增益。
(2)“信息熵”是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为pk,k=1,2,…∣Y∣,写出D的信息熵Ent(D)的公式表达。
在这里插入图片描述

(3)假定离散属性a有V个可能的取值{a1,a2,…,aV},使用a来对样本集D进行划分,写出属性a对样本集合D进行划分所获得的信息增益的公式表达。

Gain(D,a) = Ent(D) - ∑p(v) * Ent(D_v)

(4)以属性“根蒂”为例,其对应的3个数据子集分别为D1(根蒂=蜷缩),D2(根蒂=稍蜷),D3(根蒂=硬挺),分别写出计算,Ent(D1)、Ent(D2)和Ent(D3)的过程。
D1(根蒂=蜷缩)有8个,其中正例5个,反例3个,D2(根蒂=稍蜷)有7个,其中正例3个,反例4个,D3(根蒂=硬挺)有2个,正例0个,反例2个,由此得出:

Ent(D1)= -(5/8*log2(5/8)+3/8*log2(3/8)Ent(D2)= -(3/7*log2(3/7)+4/7*log2(4/7)Ent(D3)= -(0/2*log2(0/2)+2/2*log2(2/2)

三、贝叶斯

两类的先验概率分别为:0.8和0.2。现有一待识别的鱼,其鱼的光泽度指标x,从类条件概率密度分布曲线上查得鲈鱼:P(x|c1) = 0.15;鲑鱼: P(x|c2) = 0.5。
(1)简述朴素贝叶斯分类器原理。
朴素贝叶斯分类器基于贝叶斯定理与特征条件独立假设,通过计算给定样本属于某个类别的概率,选择概率最大的类别作为预测类别。
(2)请给出后验概率P(c|x)和贝叶斯判定准则的具体式子。
在这里插入图片描述
在这里插入图片描述

(3)使用贝叶斯决策对鱼的类别进行预测。

P(c1|x) =  (0.8×0.15)/(0.8×0.15+0.2×0.5)=0.12/(0.12+0.1)  = 0.545
P(c2|x) =  (0.2×0.5)/(0.8×0.15+0.2×0.5)=0.1/(0.12+0.1)  = 0.454

由于P(c1|x)>P(c2|x),根据贝叶斯判定准则,将该鱼判定为鲈鱼。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/319207.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【第一期】操作系统期末大揭秘:知识回顾与重点整理

🌈个人主页:聆风吟 🔥系列专栏:网络奇遇记、数据结构 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 📋前言一. 操作系统概述1.1 操作系统定义1.2 操作系统的作用1.3 操作系统的功能1.4 操作…

软考网络工程师教程第五版(2018最新版)

软考网络工程师教程第五版(2018最新版) 内容简介 本书是全国计算机技术与软件专业技术资格(水平)考试指定用书。作者在前4版的基础上,根据网络工程师新版大纲的要求,针对考试的重点内容做了较大篇幅的修订,书中主要内容包括数据通信、广域通信网、局域网、城域网、因特网…

【论文精读】A Survey on Large Language Model based Autonomous Agents

A Survey on Large Language Model based Autonomous Agents 前言Abstract1 Introduction2 LLM-based Autonomous Agent Construction2.1 Agent Architecture Design2.1.1 Profiling Module2.1.2 Memory ModuleMemory StructuresMemory FormatsMemory Operations 2.1.3 Plannin…

C++面向对象高级编程(侯捷)笔记2

侯捷C面向对象高级编程 本文是学习笔记,仅供个人学习使用,如有侵权,请联系删除。 如果你对C面向对象的组合、继承和委托不了解,对什么是拷贝构造、什么是拷贝赋值和析构不清楚,对类设计中的Adapter、pImpl、Template…

书生-浦路大模型全链路开源体系

2023年,大模型成为热门关键词 论文链接 大模型已经成为发展通用人工智能的重要途经 模型评测过程:从模型到应用 全链条开源开发体系 | 数据: 多模态融合 万卷包含文本、图像和视频等多模态数据,涵盖科技、文学、媒体、教育和法…

服务网格 Service Mesh

什么是服务网格? 服务网格是一个软件层,用于处理应用程序中服务之间的所有通信。该层由容器化微服务组成。随着应用程序的扩展和微服务数量的增加,监控服务的性能变得越来越困难。为了管理服务之间的连接,服务网格提供了监控、记…

奈奎斯特定理

奈奎斯特定理是通信领域中重要的理论基础之一,它对于数字通信系统中的信号采样和重构具有至关重要的作用。在数字信号处理和通信技术中,奈奎斯特定理的应用不仅具有理论意义,还对通信系统的设计、优化和性能提升起着重要的指导作用。本文将以…

苹果cmsV10暗黑大气MT主题模板源码-只有PC版本

苹果cms MT主题是一款多功能苹果cmsV10暗黑大气主题 初次使用说明: 网站模板选择mt 模板目录填写html 后台地址:MT主题,mt/mtset 先应用主题打开前台,再点击后台。 源码下载:https://download.csdn.net/download/m0_66047725…

人工智能技术在教育行业有哪些应用?

人工智能技术在教育行业有以下几个主要应用: 1. 个性化学习:人工智能可以根据学生的学习情况和特点,提供个性化的学习内容和教学方法。通过分析学生的学习数据和行为模式,AI 可以给予针对性的建议和反馈,帮助学生更好地…

【Redis交响乐】Redis中的数据类型/内部编码/单线程模型

文章目录 一. Redis中的数据类型和内部编码二. Redis的单线程模型面试题: redis是单线程模型,为什么效率之高,速度之快呢? 在上一篇博客中我们讲述了Redis中的通用命令,本篇博客中我们将围绕每个数据结构来介绍相关命令. 一. Redis中的数据类型和内部编码 type命令实际返回的…

线性代数——(期末突击)矩阵(上)-概念篇(矩阵的定义、矩阵的运算、特殊矩阵、初等变换)

目录 矩阵的定义 矩阵的运算 相加 相乘 数乘 与单位阵相乘 矩阵的幂 转置 特殊矩阵 数量矩阵 对称矩阵 伴随矩阵 逆矩阵 初等变换 矩阵的定义 由个数排成的m行n列的数表,称为m行n列的矩阵,简称矩阵,记作: 简记为…

【数据结构】循环队列(数组实现)

目录 一、循环队列定义 怎么使一个数组在逻辑上呈“环状”呢? 二、循环队列与顺序队列的差异 1、存储方式: 2、操作方式: 3、空间利用率: 4、循环队列判断队空的方式: 5、循环队列判断队满的方式 完整测试代码及注释: 总…