三创赛商务大数据分析实战赛

news/2025/1/27 2:36:14/文章来源:https://www.cnblogs.com/dyciy/p/18692379

数据采集

概念

数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。

步骤

1.采集:将整个HTML或者JS文件下载到本地,此时数据在文件中,文件可转换成文本这种可读的类型。

2.存储:存储数据一般将下载的文件或者文本整个存入数据库。

3.清洗:从文件或者文本中提取目标资料,并组织成表格形式,形成可供分析的原始资料。

采集工具与方法

使用八爪鱼采集器来进行数据采集

  1. 进入八爪鱼采集器,创建任务组,并输入网址,保存设置即可打开网页。如图所示。

    2.自动识别网页内容后,选取你想采集的内容,生成采集设置,选择是否要翻页等选项,确保下方栏内出现你想要采集的内容(如下图)后,开始采集


3.采集完成后,检查是否成功采集,并将文档保存

数据连接

数据源

了解数据连接的意义之前,首先先来了解一下数据源的概念:数据源是指数据库应用程序所使用的数据库或者数据库服务器。
数据源(Data Source)顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,可以找到相应的数据库连接。

数据源连接

数据连接也可以称作数据源连接,其主要作用是与业务数据库取得连接,从而获取业务数据进行分析。平台数据源的连接主要包含关系数据库、本地数据库、多维数据库、NoSQL数据库、高速缓存数据库、跨库联合数据源。“数据连接”界面如下

此次项目选择excel来进行操作

操作步骤

导入数据源
如图新建表,导入表格


选择所要上传的文件后进入“数据预览与导入”界面,选择导入的数据源、导入表名及其它设置信息后,点击“导入数据”按钮,完成数据导入

(1)导入数据源
可以选择文件数据导入到高速缓存库、MySQL、Oracle、DB2_V9、MSSQL。(目标数据源选择“MySQL、Oracle、DB2_V9、MSSQL”时,需在数据源界面勾选“允许加载Excel数据”)。

(2)导入表名、数据库表名

导入表名与数据库表名可根据自己的需要进行命名。输入表名时,应注意不支持输入类似如下的特殊字符:/\'|"*?%.><=:😭)[]。,输入数据库表名时注意仅支持字母、数字、下划线,且不能以数字开头。

(3)选择起始行

鼠标选中的行作为起始行,此行及之前的数据将不会导入。

(4)文件中无表头数据

勾选文件中无表头数据,将导入文件除表头外的全部数据。

(5)设置数据类型

用于设置导入目标库中各字段的数据类型

(6)设置字段名

点击字段名后面的“编辑”按钮,对字段名进行修改,修改后,点击“对号”按钮保存修改,点击“叉号”按钮取消修改

3.浏览效果

系统提示数据加载完成后,如图11所示,在弹出的窗口右下角可点击“新建自助数据集”按钮进入到新建自助数据集的实操;或者点击“关闭”按钮,将退出数据加载窗口,接下来可在加载的数据源路径下去查看创建的数据表。

在加载的数据源路径下(即“导入数据源”的路径)可以查看到创建的数据表

预览该表数据,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/876163.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

索引篇

1.索引如何分类?按照物理结构分类:①聚簇索引 ②二级索引 按数据结构分:①哈希表索引 ②B+树索引 ③Full-text索引 按字段特性分类:① 主键索引 ②唯一索引 ③普通索引 ④前缀索引 按照索引结构分类:①单列索引 ②联合索引2.InnoDB的聚簇索引的默认创建机制如果有主键,默…

2024年度Graph+AI开源探索思考

2024年蚂蚁图计算团队在「Graph+AI」开源技术方向的实践过程和思考,和大家聊一聊这个技术方向带给了我们什么,面向2025年还有哪些有意思的事情可以继续探索。前记 这篇年度总结其实酝酿了许久,却因诸多原因拖至腊月底,此时赶在春节前发出来,也不失为“农历版”年度总结了。…

卷积

参见:Convolutions Over Volume | CourseraBut what is a convolution? | 3Blue1BrownCNN Explainer

Windows安装Mysql-5.7(安装器方式)

1、下载Mysql的安装包下载地址:https://dev.mysql.com/downloads/installer/ 注意:官网的下载速度可能很慢,有任务时间要求的须尽快下载,或者使用其他可靠的下载源2、选择对应的版本注意:选择完MySQL的版本后,可以看到下载列表中有两个可以选择;其中小的那个是在线安装器…

RocketMQ原理—5.高可用+高并发+高性能架构

大纲 1.RocketMQ的整体架构与运行流程 2.基于NameServer管理Broker集群的架构 3.Broker集群的主从复制架构 4.基于Topic和Queue实现的数据分片架构 5.Broker基于Pull模式的主从复制原理 6.Broker层面到底如何做到数据0丢失 7.数据0丢失与写入高并发的取舍 8.RocketMQ读写分离主…

若干文本

4.1.2 基于 CatBoost 的缺失值填充 在数据预处理过程中,为确保模型训练数据的完整性,需对数据集 dataset1 和 dataset3 中的缺失值进行高效填充。针对多维度、多变量的缺失值问题,本研究采用基于梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的 CatBoost 算法,…

思科划分广播域(Vlan)

思科划分广播域(Vlan) Vlan概念:(虚拟局域网) ​ Vlan是用来隔离广播域,限制主机间进行通信。 作用:控制网络风暴,提高网络性能,增强安全性。 Trunk(干道)是在网络通信中可以用于交换机上来承接多个Vlan流量,并通过帧标签(802.1Q)来区分不同的vlan。 实验 规划Vl…

索引的性能影响:优化数据库查询与存储的关键

title: 索引的性能影响:优化数据库查询与存储的关键 date: 2025/1/26 updated: 2025/1/26 author: cmdragon excerpt: 在关系数据库管理系统中,索引是提升数据检索性能的重要工具。然而,索引的引入虽然能够加速查询操作,但同时也可能对数据更新、存储空间及整体性能产生影…

笔试杂题选记

笔试杂题选记不知道定义型三个变量 X Y Z 两两相关系数都是 \(\rho\) 那么求 \(\rho\) 的取值范围 相关系数的定义:\(\displaystyle\dfrac{cov(X,Y)}{\sigma_X \sigma_Y},cov(X,Y) = \frac{1}{n-1}\sum\limits_{i=1}^n (x- \overline x)(y-\overline y)\)。如果没有”样本点“…

什么是Conda和Anaconda?

什么是Conda? conda可以理解为一个工具,也是一个可执行命令,其核心功能是包管理与环境管理。包管理与pip的使用类似,环境管理则允许用户方便地安装不同版本的python并可以快速切换。 什么是Anaconda? Anaconda Anaconda是conda的一个发行版,里面预装好了conda、某个版本的…

【枚举】求勾股数的方法

题目样例输入1 20输出3 4 5 5 12 13 8 15 17解释,1-20内有多组勾股数,但满足两两互质的只有上述三组。下图是1-20内的全部勾股数组思路: n的范围在1e4,三重for循环会超时,所以可以枚举a,b,用ab计算c,看c是否满足条件,可以做到\(O(n^2)\)的时间复杂度。 另外:两数互质就是…

ACM寒假集训第二次专题任务

ACM寒假集训第二次专题任务 一、二分查找 题目:解题思路: 输入数据后把每一个x单独拎出来,通过二分查找检验是否存在于被测数组中。 AC代码: #include<iostream> using namespace std; int main() {int n,a[100000]={0},q,x[100000];cin>>n;for(int i=0;i<n…