大数据分析与挖掘-期末复习大纲[HBU]-编程知识

大数据分析与挖掘-期末复习大纲[HBU]

news/2025/4/2 12:58:18/文章来源:https://blog.csdn.net/weixin_63010525/article/details/134606509

前言

这篇博客针对河北大学大数据分析与挖掘 课程期末复习，目的是给同学们一个比较清晰的复习方向，具体的学习还需要平时认真听讲、写作业。

我们使用的教材是这本：

练习题目

我只更新了部分答案，至于剩下的答案老师上课的时候会带着讲解的。在这里我只是为同学们提供一个复习纲要和复习方向。希望大家能快速抓到考试重点，不在其他方向上浪费精力。

选择题答案： 1.C 2.D

判断题答案：1.X 2.√ 3.X 4.X (若答案有误，请及时联系我)

(二)答案&步骤：

(四)答案&解题步骤：

大题

复习大纲

第一章

>4V理论(p1)：1.容量volume 2.多样性variety 3.速度velocity 4.价值value

第二章

>数据属性的类型(p17): 1.标称属性(离散、分类) 2.序数属性(离散、分类) 3.数值属性(连续)

>描述数据集中趋势的度量(p20)：1.算术平均数 2.中位数 3.众数 4.k百分位数

>描述数据离中趋势的度量(p22):1.极差 2.四分位数极差 3.平均绝对离差 4.方差和标准差 5.离散系数

>数据分布特征可视化(p27):1.箱型图 2.正态分布

>相关分析(p31):

1.散点图

2.相关系数:(只适用于数值型(连续值))

首先了解协方差，给定n个样本，属性X和Y之间的样本协方差计算公式：

协方差可以反映两个属性在变化过程中的变化情况。若同时变大，协方差就是正的；若一个属性变大，另一个属性变小，协方差就是负的。协方差的正负代表两个属性相关性的方向，而协方差的绝对值代表它们之间关系的强弱。

样本相关系数的计算公式：

$r(X,Y)=\frac{cov(X,Y)}{S_{X}S_{Y}}$

相关系数消除了两个属性量纲的影响。

3.卡方检验(适用于离散值(标称属性))

卡方统计量：

$\chi ^{}2=\sum \frac{(Observed-Expected)^{2}}{Expected}$

Observed:观测值/实际值

Expected:期望值/理论值

实际值与理论值偏差越大， $\chi ^{2}$ 就越大，表明越不符合；偏差越小， $\chi ^{2}$ 就越小，越趋于符合；若两值完全相等， $\chi ^{2}$ 就为0.

>数据预处理(p35):

1.零均值化: 给定一个数值型数据集合，将每一个属性的数据都减去属性的均值。零均值变换后，各属性的方差不发生变化，协方差也不变。

2. Z分数变换(Z-score变换)：

$z=\frac{x-x\bar{}}{s}$

s为标准差。Z分数变换可以消除量纲不一致的影响。

3.最小-最大规范化(离差标准化):

将数据按比例缩放至一个特定区间。假设原来数据分布在区间[min,max],要变换到区间[min' , max']，公式如下：

$v'=min'+\frac{v-min}{max-min}(max'-min')$

4.独热编码(适用于标称属性)

>PCA主成分分析(必考)p42：

目的与基本思想：
目的就是降维。用较少数量的不相关的维度代替原来的维度，并能够解释数据所包含的大部分信息，这些不相关的新维度称为主成分。主成分是一种降维方法，将p维特征映射到m维上(m<p)

步骤：

假设样本包含n个p维数据，我们想要降维到m个主成分。

(1)将样本数据表示成列向量形式，即 $X\leftarrow X^{T}$ ，此时X为一个p*n维矩阵，每一行代表一个属性

(2)将X的每一维进行零均值化

(3)求样本协方差矩阵C

(4)计算协方差矩阵C的特征值 $\lambda$ ，及对应的标准正交特征向量。

(5)将特征向量按照对应的特征值大小从大到小排列成矩阵。

(6)将样本投影到新的坐标系上，取方差占比例最大的主成分作为新的主成分即可。

最后得到的主成分F是一个线性相关公式。

>数据清洗(p49)

1.缺失值填充：均值填充回归填充热卡填充(找到一个与它最相似的对象，用相似对象的值来填充)

2.平滑噪声：(p51)

分箱：等深分箱等宽分箱

将数据分箱后对每个分箱中的数据进行局部平滑：

1.平均值平滑 2.边界值平滑 3.中值平滑

第三章关联规则挖掘

以下内容在p60

>频繁k-项集：频繁项集元素个数为k

>支持度计数：记录项集X出现过的次数 $\sigma (X)$

>支持度及最小支持度：

$sup(X)=\frac{\sigma (X)}{N}$

比如：{面包、啤酒、奶酪}这个三项集，在总共N=6次的购买记录里，同时出现了3次，,支持度计数为3，则支持度为3/6 = 50%。

最小支持度minsup：这是主观条件，可自己设定。当sup(X)>=minsup时，项集X为频繁项集。

>关联规则：形如 $A\rightarrow B$ ,A,B是不相交的项集。

>关联规则的支持度： $sup(A\rightarrow B)=\frac{\sigma(A\cup B) }{N}$

>置信度: $con(A\rightarrow B)=\frac{\sigma (A\cup B)}{\sigma(A)}$

通常会给出最小置信度，同时满足最小支持度和最小置信度的关联规则称为强关联规则。

>关联规则挖掘的一般过程：

1.通过最小支持度，找到所有的频繁项集 2.根据最小置信度，过滤频繁项集产生的所有关联规则

>Apriori算法(p61)

>FP-Growth算法(P66)

这两个算法看B站视频UP主讲解，很清晰明了，可以快速上手。链接放在下面，

数据挖掘期末必考计算题之FP growth，看这个就过了_哔哩哔哩_bilibili

FPgrowth例题计算（保护脖子版本）_哔哩哔哩_bilibili

期末数据挖掘关联规则的apriori 算法计算大题_哔哩哔哩_bilibili

数据仓库数据挖掘关联规则挖掘 - Apriori 算法_哔哩哔哩_bilibili

后面几章的重点就是 (都是2021届考过的)：

>K-means算法、DBSCAN算法

>ID3和C4.5算法

>异常点检测

这是2023-2024秋学期考试中涉及到的知识点，我做了笔记：

这块就不细细更新了，大家平时好好听课，做题。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/342223.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

FineBI实战项目一（22）：各省份订单个数及订单总额分析开发

FineBI实战项目一（22）：各省份订单个数及订单总额分析开发

点击新建组件，创建各省份订单个数及订单总额组件。选择自定义图表修改横轴和纵轴的标题。修改柱状图样式： 将组件拖拽到仪表板。结果如下：

阅读更多...

蓝桥杯练习题（六）

蓝桥杯练习题（六）

📑前言本文主要是【算法】——蓝桥杯练习题（六）的文章，如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介：大家好，我是听风与他🥇 ☁️博客首页：CSDN主页听风与他 …

阅读更多...

通义千问开源大模型部署教程-小白也能懂

通义千问开源大模型部署教程-小白也能懂

1、基础环境 1.1 python3安装准备好：python 3.10 (不要用3.8 ，有bug) https://www.python.org/ftp/python/3.10.9/python-3.10.9-amd64.exe 安装完了之后，观察是否添加到path环境变量里了，如果安装的时候忘记勾选自动添…

阅读更多...

六款简单的开关电源电路设计原理图详解

六款简单的开关电源电路设计原理图详解

简单的开关电源电路图（一） 简单实用的开关电源电路图调整C3和R5使振荡频率在30KHz-45KHz。输出电压需要稳压。输出电流可以达到500mA.有效功率8W、效率87%。其他没有要求就可以正常工作。简单的开关电源电路图（二） 24V开关电源…

阅读更多...

网络市场中的品牌推广：面向新一代数字原住民的挑战与机遇

网络市场中的品牌推广：面向新一代数字原住民的挑战与机遇

随着科技的迅速发展和互联网的普及，我们正处在一个网络成熟期，一个以数字化和网络化为特征的新时代。在这个时代，新一代的数字原住民经营者正在崛起，他们依赖网络寻找商机，建立自己的事业。对于企业来说，如…

阅读更多...

构建基于RHEL8系列(CentOS8,AlmaLinux8,RockyLinux8等)的支持63个常见模块的PHP8.1.20的RPM包

构建基于RHEL8系列(CentOS8,AlmaLinux8,RockyLinux8等)的支持63个常见模块的PHP8.1.20的RPM包

本文适用：rhel8系列，或同类系统(CentOS8,AlmaLinux8,RockyLinux8等) 文档形成时期：2023年因系统版本不同，构建部署应略有差异，但本文未做细分，对稍有经验者应不存在明显障碍。因软件世界之复杂和个人能力…

阅读更多...

FridaHook（三）——AllSafe App wp

FridaHook（三）——AllSafe App wp

By ruanruan，2022/04/21 文章目录 1、不安全的日志记录2、硬编码3、pin绕过（1）反编译查看方法判断逻辑（2）hook方法A、Hook areEqual(Object,Object)B、Hook checkPin(a) （3）页面效果&#xff08…

阅读更多...

C++程序员必备的面试技巧

C++程序员必备的面试技巧

“程序员必备的面试技巧，就像是编写一段完美的代码一样重要。在面试战场上，我们需要像忍者一样灵活，像侦探一样聪明，还要像无敌铁金刚一样坚定。只有掌握了这些技巧，我们才能在面试的舞台上闪耀光芒，成为那…

阅读更多...

Window平台安装MongoDB

Window平台安装MongoDB

在部署前需要在官网先确定系统对应的Mongo DB版本。本机电脑为Window10，所以这里以MongoDB 6.0版本。 1 在官网下载安装包 2 安装MongoDB MongoDB Compass 是一个图形界面管理工具，如果勾选了安装会花费长一点时间，可以取消掉勾选&#xff…

阅读更多...

代码随想录算法训练营Day17|110.平衡二叉树、257. 二叉树的所有路径、 404.左叶子之和

代码随想录算法训练营Day17|110.平衡二叉树、257. 二叉树的所有路径、 404.左叶子之和

文章目录一、110.平衡二叉树1.递归法二、257. 二叉树的所有路径1. 递归法三、 404.左叶子之和1.迭代法一、110.平衡二叉树题目描述： 给定一个二叉树，判断它是否是高度平衡的二叉树。本题中，一棵高度平衡二叉树定义为：一个二…

阅读更多...

MidTool的AIGC与NFT的结合-艺术创作和版权保护的革新

MidTool的AIGC与NFT的结合-艺术创作和版权保护的革新

在数字艺术和区块链技术的交汇点上，NFT（非同质化代币）正以其独特的方式重塑艺术品的收藏与交易。将MidTool（https://www.aimidtool.com/）的AIGC（人工智能生成内容）创作的图片转为NFT&#xff0c…

阅读更多...

用通俗易懂的方式讲解大模型分布式训练并行技术：序列并行

用通俗易懂的方式讲解大模型分布式训练并行技术：序列并行

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。而利用AI集群&a…

阅读更多...

推荐文章

最新文章