大数据分析与挖掘-期末复习大纲[HBU]

前言

这篇博客针对河北大学 大数据分析与挖掘 课程期末复习,目的是给同学们一个比较清晰的复习方向,具体的学习还需要平时认真听讲、写作业。

我们使用的教材是这本:


练习题目

我只更新了部分答案,至于剩下的答案 老师上课的时候会带着讲解的。在这里  我只是为同学们提供一个复习纲要和复习方向。希望大家能快速抓到考试重点,不在其他方向上浪费精力。

选择题答案:  1.C  2.D


判断题答案:1.X  2.√  3.X  4.X   (若答案有误  ,请及时联系我)


(二)答案&步骤:


(四)答案&解题步骤:


大题


复习大纲

第一章

>4V理论(p1):1.容量volume  2.多样性variety  3.速度velocity  4.价值value


第二章

>数据属性的类型(p17): 1.标称属性(离散、分类)  2.序数属性(离散、分类)  3.数值属性(连续)

>描述数据集中趋势的度量(p20):1.算术平均数 2.中位数 3.众数 4.k百分位数

>描述数据离中趋势的度量(p22):1.极差  2.四分位数极差 3.平均绝对离差 4.方差和标准差 5.离散系数

>数据分布特征可视化(p27):1.箱型图 2.正态分布


>相关分析(p31):

1.散点图

2.相关系数:(只适用于数值型(连续值))

        首先了解协方差,给定n个样本,属性X和Y之间的样本协方差计算公式:

        协方差可以反映两个属性在变化过程中的变化情况。若同时变大,协方差就是正的;若一个属性变大,另一个属性变小,协方差就是负的。协方差的正负代表两个属性相关性的方向,而协方差的绝对值代表它们之间关系的强弱。

        样本相关系数的计算公式:

r(X,Y)=\frac{cov(X,Y)}{S_{X}S_{Y}}

        相关系数消除了两个属性量纲的影响。

 3.卡方检验(适用于离散值(标称属性))

        卡方统计量:

\chi ^{}2=\sum \frac{(Observed-Expected)^{2}}{Expected}

        Observed:观测值/实际值

        Expected:期望值/理论值

实际值与理论值偏差越大,\chi ^{2}就越大,表明越不符合;偏差越小,\chi ^{2}就越小,越趋于符合;若两值完全相等,\chi ^{2}就为0.


>数据预处理(p35):

1.零均值化:  给定一个数值型数据集合,将每一个属性的数据都减去属性的均值。零均值变换后,各属性的方差不发生变化,协方差也不变。

2. Z分数变换(Z-score变换):

z=\frac{x-x\bar{}}{s}

s为标准差。Z分数变换可以消除量纲不一致的影响。

3.最小-最大规范化(离差标准化):

将数据按比例缩放至一个特定区间。假设原来数据分布在区间[min,max],要变换到区间[min' , max'],公式如下:

v'=min'+\frac{v-min}{max-min}(max'-min')

4.独热编码(适用于标称属性)


>PCA主成分分析(必考)p42:

        目的与基本思想:
        目的就是降维。用较少数量的不相关的维度代替原来的维度,并能够解释数据所包含的大部分信息,这些不相关的新维度称为主成分。主成分是一种降维方法,将p维特征映射到m维上(m<p)

 步骤:

假设样本包含n个p维数据,我们想要降维到m个主成分。

(1)将样本数据表示成列向量形式,即X\leftarrow X^{T},此时X为一个p*n维矩阵,每一行代表一个属性

(2)将X的每一维进行零均值化

(3)求样本协方差矩阵C

(4)计算协方差矩阵C的特征值\lambda,及对应的标准正交特征向量。

(5)将特征向量按照对应的特征值大小从大到小排列成矩阵。

(6)将样本投影到新的坐标系上,取方差占比例最大的主成分作为新的主成分即可。

最后得到的主成分F是一个线性相关公式。


>数据清洗(p49)

1.缺失值填充:均值填充  回归填充  热卡填充(找到一个与它最相似的对象,用相似对象的值来填充)

2.平滑噪声:(p51)

分箱:等深分箱  等宽分箱  

将数据分箱后对每个分箱中的数据进行局部平滑:

1.平均值平滑 2.边界值平滑 3.中值平滑


第三章 关联规则挖掘

以下内容在p60

>频繁k-项集:频繁项集元素个数为k

>支持度计数:记录项集X出现过的次数\sigma (X)

>支持度及最小支持度

sup(X)=\frac{\sigma (X)}{N}

比如:{面包、啤酒、奶酪}这个三项集,在总共N=6次的购买记录里,同时出现了3次,,支持度计数为3,则支持度为3/6 = 50%。

最小支持度minsup:这是主观条件,可自己设定。当sup(X)>=minsup时,项集X为频繁项集。

>关联规则:形如A\rightarrow B,A,B是不相交的项集。

>关联规则的支持度:sup(A\rightarrow B)=\frac{\sigma(A\cup B) }{N}

>置信度:con(A\rightarrow B)=\frac{\sigma (A\cup B)}{\sigma(A)}

通常会给出最小置信度,同时满足最小支持度和最小置信度的关联规则称为强关联规则。

>关联规则挖掘的一般过程:

1.通过最小支持度,找到所有的频繁项集  2.根据最小置信度,过滤频繁项集产生的所有关联规则 

>Apriori算法(p61)

>FP-Growth算法(P66)

这两个算法看B站视频UP主讲解,很清晰明了,可以快速上手。链接放在下面,

数据挖掘期末必考计算题之FP growth,看这个就过了_哔哩哔哩_bilibili

FPgrowth例题计算(保护脖子版本)_哔哩哔哩_bilibili

期末数据挖掘关联规则的apriori 算法计算大题_哔哩哔哩_bilibili

数据仓库 数据挖掘 关联规则挖掘 - Apriori 算法_哔哩哔哩_bilibili


后面几章的重点就是 (都是2021届考过的):

>K-means算法DBSCAN算法

>ID3C4.5算法

>异常点检测

这是2023-2024秋学期 考试中涉及到的知识点,我做了笔记:

这块就不细细更新了,大家平时好好听课,做题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/342223.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FineBI实战项目一(22):各省份订单个数及订单总额分析开发

点击新建组件&#xff0c;创建各省份订单个数及订单总额组件。 选择自定义图表 修改横轴和纵轴的标题。 修改柱状图样式&#xff1a; 将组件拖拽到仪表板。 结果如下&#xff1a;

蓝桥杯练习题(六)

&#x1f4d1;前言 本文主要是【算法】——蓝桥杯练习题&#xff08;六&#xff09;的文章&#xff0c;如果有什么需要改进的地方还请大佬指出⛺️ &#x1f3ac;作者简介&#xff1a;大家好&#xff0c;我是听风与他&#x1f947; ☁️博客首页&#xff1a;CSDN主页听风与他 …

通义千问开源大模型部署教程-小白也能懂

1、基础环境 1.1 python3安装 准备好&#xff1a;python 3.10 (不要用3.8 &#xff0c;有bug) https://www.python.org/ftp/python/3.10.9/python-3.10.9-amd64.exe 安装完了之后&#xff0c;观察是否添加到path环境变量里了&#xff0c;如果安装的时候忘记勾选自动添…

六款简单的开关电源电路设计原理图详解

简单的开关电源电路图&#xff08;一&#xff09; 简单实用的开关电源电路图 调整C3和R5使振荡频率在30KHz-45KHz。输出电压需要稳压。输出电流可以达到500mA.有效功率8W、效率87%。其他没有要求就可以正常工作。 简单的开关电源电路图&#xff08;二&#xff09; 24V开关电源…

网络市场中的品牌推广:面向新一代数字原住民的挑战与机遇

随着科技的迅速发展和互联网的普及&#xff0c;我们正处在一个网络成熟期&#xff0c;一个以数字化和网络化为特征的新时代。在这个时代&#xff0c;新一代的数字原住民经营者正在崛起&#xff0c;他们依赖网络寻找商机&#xff0c;建立自己的事业。对于企业来说&#xff0c;如…

构建基于RHEL8系列(CentOS8,AlmaLinux8,RockyLinux8等)的支持63个常见模块的PHP8.1.20的RPM包

本文适用&#xff1a;rhel8系列&#xff0c;或同类系统(CentOS8,AlmaLinux8,RockyLinux8等) 文档形成时期&#xff1a;2023年 因系统版本不同&#xff0c;构建部署应略有差异&#xff0c;但本文未做细分&#xff0c;对稍有经验者应不存在明显障碍。 因软件世界之复杂和个人能力…

FridaHook(三)——AllSafe App wp

By ruanruan&#xff0c;2022/04/21 文章目录 1、不安全的日志记录2、硬编码3、pin绕过&#xff08;1&#xff09;反编译查看方法判断逻辑&#xff08;2&#xff09;hook方法A、Hook areEqual(Object,Object)B、Hook checkPin(a) &#xff08;3&#xff09;页面效果&#xff08…

C++程序员必备的面试技巧

“程序员必备的面试技巧&#xff0c;就像是编写一段完美的代码一样重要。在面试战场上&#xff0c;我们需要像忍者一样灵活&#xff0c;像侦探一样聪明&#xff0c;还要像无敌铁金刚一样坚定。只有掌握了这些技巧&#xff0c;我们才能在面试的舞台上闪耀光芒&#xff0c;成为那…

Window平台安装MongoDB

在部署前需要在官网先确定系统对应的Mongo DB版本。 本机电脑为Window10&#xff0c;所以这里以MongoDB 6.0版本。 1 在官网下载安装包 2 安装MongoDB MongoDB Compass 是一个图形界面管理工具&#xff0c;如果勾选了安装会花费长一点时间&#xff0c;可以取消掉勾选&#xff…

代码随想录算法训练营Day17|110.平衡二叉树、257. 二叉树的所有路径、 404.左叶子之和

文章目录 一、110.平衡二叉树1.递归法 二、257. 二叉树的所有路径1. 递归法 三、 404.左叶子之和1.迭代法 一、110.平衡二叉树 题目描述&#xff1a; 给定一个二叉树&#xff0c;判断它是否是高度平衡的二叉树。 本题中&#xff0c;一棵高度平衡二叉树定义为&#xff1a;一个二…

MidTool的AIGC与NFT的结合-艺术创作和版权保护的革新

在数字艺术和区块链技术的交汇点上&#xff0c;NFT&#xff08;非同质化代币&#xff09;正以其独特的方式重塑艺术品的收藏与交易。将MidTool&#xff08;https://www.aimidtool.com/&#xff09;的AIGC&#xff08;人工智能生成内容&#xff09;创作的图片转为NFT&#xff0c…

用通俗易懂的方式讲解大模型分布式训练并行技术:序列并行

近年来&#xff0c;随着Transformer、MOE架构的提出&#xff0c;使得深度学习模型轻松突破上万亿规模参数&#xff0c;传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此&#xff0c;我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。 而利用AI集群&a…